JP2021085996A - 音声認識システム、音声認識方法 - Google Patents

音声認識システム、音声認識方法 Download PDF

Info

Publication number
JP2021085996A
JP2021085996A JP2019214827A JP2019214827A JP2021085996A JP 2021085996 A JP2021085996 A JP 2021085996A JP 2019214827 A JP2019214827 A JP 2019214827A JP 2019214827 A JP2019214827 A JP 2019214827A JP 2021085996 A JP2021085996 A JP 2021085996A
Authority
JP
Japan
Prior art keywords
information
voice recognition
voice
dictionary
output information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019214827A
Other languages
English (en)
Inventor
英志 木村
Hideshi Kimura
英志 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2019214827A priority Critical patent/JP2021085996A/ja
Publication of JP2021085996A publication Critical patent/JP2021085996A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声認識の精度を高めた場合でも、管理が煩雑化することがなくなる。【解決手段】ユーザから発話された音声を認識する音声認識システムであって、音声を入力する音声入力部と、所定の種類の辞書を用いて入力された音声を認識した結果を示す第1の情報と、第1の情報をユーザに認識可能な態様で出力する出力情報の種類を示す第2の情報とを対応付けて記憶した辞書定義テーブルを用いて、入力された音声を出力情報に変換する音声認識部と、を備え、音声認識部は、辞書定義テーブルに、第2の情報を他の種類の出力情報に置換する旨が登録されているか否かを判定し、第2の情報を他の種類の出力情報に置換する旨が登録されていると判定した場合、第1の情報と他の種類の出力情報を含む第2の情報とを対応付けた汎用辞書テーブルを生成して音声認識システムに登録し、登録した汎用辞書テーブルを用いて、第1の情報を他の種類の出力情報を含む第2の情報に変換する。【選択図】 図5

Description

本発明は、音声認識システム、音声認識方法に関する。
従来から、音声認識の精度を向上させる様々な技術がある。例えば、特許文献1では、漢字や外来語を登録する単語辞書とともに、外来語を所定の文字数ずつに分割して記憶するn−gram辞書を設け、このn−gram辞書を用いて未定義外来語を予測する技術が開示されている。
特開2000−099082号公報
特許文献1では、辞書に全ての外来語を登録することなく、外来語を含んだ音声の認識を可能としている。しかし、音声認識により音声をテキスト化する場合、使用する音声認識モデルにより音声認識の精度が異なるため、必ずしも精度よく予測や認識ができるわけではない。この点、音声認識モデルを高精度のモデルに切り替えることで、その認識精度を高めることはできる。しかし、モデルを切り替える際には、提供するサービスごと、モデルごとにチューニングのための辞書を構築し、管理する必要がある。さらに、辞書の形式も大きく異なるため、管理が煩雑になる。
本発明は、音声認識の精度を高めた場合でも、管理が煩雑化することのない音声認識システム、音声認識方法を提供することを目的とする。
本発明にかかる音声認識システムは、ユーザから発話された音声を認識する音声認識システムであって、前記音声を入力する音声入力部と、所定の種類の辞書を用いて前記入力された音声を認識した結果を示す第1の情報と、前記第1の情報をユーザに認識可能な態様で出力する出力情報の種類を示す第2の情報とを対応付けて記憶した辞書定義テーブルを用いて、前記入力された音声を前記出力情報に変換する音声認識部と、を備え、前記音声認識部は、前記辞書定義テーブルに、前記第2の情報を他の種類の出力情報に置換する旨が登録されているか否かを判定し、前記第2の情報を他の種類の出力情報に置換する旨が登録されていると判定した場合、前記第1の情報と他の種類の出力情報を含む第2の情報とを対応付けた汎用辞書テーブルを生成して前記音声認識システムに登録し、登録した前記汎用辞書テーブルを用いて、前記第1の情報を前記他の種類の出力情報を含む第2の情報に変換する、ことを特徴とする音声認識システムとして構成される。
また、本発明は、上記音声認識システムで実行される音声認識方法としても把握される。
本発明によれば、音声認識の精度を高めた場合でも、管理が煩雑化することがなくなる。
本実施の形態における音声認識システムの構成例を示す図である。 音声認識エンジンテーブルの例を示す図である。 辞書定義テーブルの例を示す図である。 汎用辞書テーブルの例を示す図である。 本システムで行われる処理(音声認識処理)の処理手順を示すフローチャートである。
以下に添付図面を参照して、本発明にかかる音声認識システム、音声認識方法の実施の形態を詳細に説明する。
図1は、本実施の形態における音声認識システムの構成例を示す図である。図1に示すように、音声認識システム100は、記憶部101と、入力部102と、出力部103と、音声認識部104と、制御部105とを有して構成されている。以下では、音声認識システム100がサーバやPC(Personal Computer)等のコンピュータにより構成された場合を例示しているが、音声認識システム100の各機能部が、ネットワークを介した1または複数のコンピュータ(例えば、クラウド)がこれらの処理を実行してもよい。
音声認識システム100が行う各処理は、プログラムの実行により実現される。上記コンピュータは、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)、NIC(Network Interface Card)といった、通信可能なコンピュータが備える一般的な構成を有し、CPUが、ROMからプログラムを読み出して実行することにより、各処理を実行する各機能部の機能が実現される。上記プログラムは、USB(Universal Serial Bus)メモリ等の記憶媒体から読み出されたり、ネットワークを介した他のコンピュータからダウンロードする等して、音声認識システム100に提供されてもよい。
記憶部101は、本システムで用いられる音声認識エンジンテーブル1011、辞書定義テーブル1012、汎用辞書テーブル1013をはじめ、本システムに必要なデータを記憶する。各データの具体例については後述する。
入力部102は、例えば、マイクから構成され、ユーザから音声情報の入力を受け付ける。
出力部103は、例えば、ディスプレイやスクリーン等をはじめ、ユーザからの音声情報が音声認識部104により認識された結果を出力する。
音声認識部104は、入力部102が受け付けた音声情報を、所定の音声認識モデルを用いて認識し、その結果を出力する処理部である。
制御部105は、音声認識システム100全体を制御するとともに、各部を制御する処理部である。
図2は、音声認識エンジンテーブル1011の例を示す図である。音声認識エンジンテーブル1011は、音声認識処理を行うエンジンに関する情報を記憶したテーブルである。図2に示すように、音声認識エンジンテーブル1011は、音声認識モデルを用いて音声認識処理を行うエンジンを識別するためのエンジン名と、当該エンジン名により識別されるエンジンが用いる辞書とが対応付けて記憶されている。図2では、例えば、「製品A」で識別されるエンジンは、音声の音素を表記に変換するエンジンであることを示している。
図3は、辞書定義テーブル1012の例を示す図である。辞書定義テーブル1012は、入力部102により入力され、音声認識部104により認識された情報(入力情報)を、音声認識エンジンテーブル1011で定められた辞書により変換(マッピング)し、マッピング後の情報(出力情報)の出力方法を定めたテーブルである。図3に示すように、辞書定義テーブル1012は、入力情報と出力情報とをどのようにマッピングするのかを定めたマッピング種別と、マッピングする入力情報の種別(Source)と、マッピング後の出力情報の種別(Destination)とが対応付けて記憶されている。図3では、例えば、音声認識部104は、入力情報の種別が音素列である場合、その音素列を表記に変換することを示している。本実施例では、「表記」の一例として、英語、カタカナ、ひらがな、漢字等の文字データを例示しているが、他の言語や記号、符号をはじめとする様々な識別情報およびこれらの組み合わせを含むものとする。例えば、入力情報に含まれる音素の変換先となる出力情報は、ひらがな/カタカナ/漢字/記号/数字のいずれか、またはその組み合わせを定義することができる。
図4は、汎用辞書テーブル1013の例を示す図である。汎用辞書テーブル1013は、入力された音声の音素列と、当該音素列のカタカナ表記と、辞書定義テーブル1012を用いてカタカナ表記から変換された出力情報とを対応付けたテーブルである。図4では、入力情報の音素列を変換した中間情報としてカタカナ表記を例示しているが、中間情報として上述した他の言語や各種識別情報およびその組み合わせを用いてもよい。
図4では、例えば、音声認識部104が、エンジン名「製品A」を用いて入力された音声を、カタカナ表記で「イーアドワールド」であると認識した場合、音声認識エンジンテーブル1011を参照し、当該製品Aに対応する辞書種別と同じ内容のマッピング種別を含むレコードを、辞書定義テーブル1012の中から検索する。音声認識部104は、検索したレコードの入力情報が「音素列」であり、出力情報が「表記」であるため、入力された音声の音素列と、そのカタカナ表記と、出力情報として変換された表記(図4では英語表記)とを対応付けて汎用辞書テーブル1013に記憶する。
また、例えば、音声認識部104が、エンジン名「サービスA」を用いて入力された音声を、カタカナ表記で「ヒタチシステムズ」であると認識した場合、音声認識エンジンテーブル1011を参照し、当該サービスAに対応する辞書種別と同じ内容のマッピング種別を含むレコードを、辞書定義テーブル1012の中から検索する。音声認識部104は、検索したレコードの入力情報が「カタカナ」であり、出力情報が「置換表記」であるため、入力された音声の音素列と、そのカタカナ表記と、出力情報として変換された表記(図4ではカタカナ表記)を漢字に置換した「日立システムズ」とを対応付けて汎用辞書テーブル1013に記憶する。
図4では、このように、使用するエンジンの種類によらず共通した汎用辞書テーブルを保持しているので、音声認識の精度が低い辞書と音声認識の精度が高い辞書とが混在した環境下で音声認識処理を行った場合でも、システムごとのチューニングといった管理を必要とすることなく、音声認識の精度を維持することができる。
続いて、本システムで行われる処理について、フローチャートを用いて説明する。図5は、本システムで行われる処理(音声認識処理)の処理手順を示すフローチャートである。なお、以下では、音声認識後の出力情報の出力態様が表記である場合を例示しているが、表記以外にも様々な出力方法(例えば、スピーカからの音声出力、スクリーンへの投影出力)により出力してもよい。
入力部102がユーザから音声の入力および音声認識処理に用いるエンジンの入力を受け付けると、音声認識部104は、音声認識エンジンテーブル1011と辞書定義テーブル1012とを参照し、当該エンジンに対応する辞書種別と同じ内容のマッピング種別を含むレコードを、辞書定義テーブル1012の中から検索する(S501)。
音声認識部104は、検索したレコードの入力情報と出力情報とを読み出し、入力された音声の音素列と、そのカタカナ表記と、出力情報として変換された表記とを対応付けて汎用辞書テーブル1013に記憶する(S502)。
音声認識部104は、S502で読み出した辞書定義テーブル1012の出力情報に「置換」があるか否かを判定し(S503)、S502で読み出した辞書定義テーブル1012の出力情報に「置換」がないと判定した場合(S503;No)、S506に進む。一方、音声認識部104は、S502で読み出した辞書定義テーブル1012の出力情報に「置換」があると判定した場合(S503;Yes)、入力された音声の音素列と、そのカタカナ表記と、出力情報として変換された表記を他の種類の出力情報(例えば、漢字)に置換し、当該置換した漢字を含む出力情報とを対応付けて汎用辞書テーブル1013に記憶する(S504、S505)。
その後、音声認識部104は、上記S503で記憶された置換後の出力情報を含む汎用辞書テーブル1013を読み込んで、S501で入力されたエンジンを起動し、その後、ユーザからの音声の入力を受け付けて、上記汎用辞書テーブル1013を用いて音声認識し、その結果を、出力部103に出力する(S506)。
このように、本実施例では、ユーザから発話された音声を認識する音声認識システムにおいて、音声を入力する音声入力部(入力部102)、所定の種類の辞書を用いて入力された音声を認識した結果を示す第1の情報(図3の入力情報)と、第1の情報をユーザに認識可能な態様で出力する出力情報(図3の出力情報)の種類を示す第2の情報とを対応付けて記憶した辞書定義テーブル1012を用いて、入力された音声を出力情報に変換する音声認識部104と、を備え、音声認識部104は、辞書定義テーブル102に、第2の情報を他の種類の出力情報に置換する旨が登録されているか否かを判定し、第2の情報を他の種類の出力情報に置換する旨が登録されていると判定した場合、第1の情報と他の種類の出力情報を含む第2の情報とを対応付けた汎用辞書テーブル1013を生成して音声認識システム100に登録し、登録した汎用辞書テーブル1013を用いて、第1の情報を他の種類の出力情報を含む第2の情報に変換するので、使用するエンジンの種類によらず共通した汎用辞書テーブルを保持することができ、システム全体の管理を煩雑化することなく、音声認識の精度を高めることができる。
また、音声認識部104は、辞書定義テーブル1012に、上記第2の情報を他の種類の出力情報に置換する旨が登録されていないと判定した場合、汎用辞書テーブル1012に上記第1の情報と上記第2の情報とを登録せずに、上記第1の情報を上記第2の情報に変換するので、置換が必要ない音声について従来通りの処理を行うことができる。
また、音声認識部は、音素を含む上記第1の情報と、カタカナを含む上記第2の情報と、ひらがな、カタカナ、漢字、記号、数字のいずれか、またはその組み合わせを含む上記他の出力情報とを対応付けた汎用辞書テーブル1013を用いて、入力された音声の音素を変換するので、入力された音声を様々な種類の出力情報に変換することができる。
100 音声認識システム
101 記憶部
102 入力部
103 出力部
104 音声認識部
105 制御部
1011 音声認識エンジンテーブル
1012 辞書定義テーブル
1013 汎用辞書テーブル

Claims (6)

  1. ユーザから発話された音声を認識する音声認識システムであって、
    前記音声を入力する音声入力部と、
    所定の種類の辞書を用いて前記入力された音声を認識した結果を示す第1の情報と、前記第1の情報をユーザに認識可能な態様で出力する出力情報の種類を示す第2の情報とを対応付けて記憶した辞書定義テーブルを用いて、前記入力された音声を前記出力情報に変換する音声認識部と、を備え、
    前記音声認識部は、前記辞書定義テーブルに、前記第2の情報を他の種類の出力情報に置換する旨が登録されているか否かを判定し、前記第2の情報を他の種類の出力情報に置換する旨が登録されていると判定した場合、前記第1の情報と他の種類の出力情報を含む第2の情報とを対応付けた汎用辞書テーブルを生成して前記音声認識システムに登録し、登録した前記汎用辞書テーブルを用いて、前記第1の情報を前記他の種類の出力情報を含む第2の情報に変換する、
    ことを特徴とする音声認識システム。
  2. 前記音声認識部は、前記辞書定義テーブルに、前記第2の情報を他の種類の出力情報に置換する旨が登録されていないと判定した場合、前記汎用辞書テーブルに前記第1の情報と前記第2の情報とを登録せずに、前記第1の情報を前記第2の情報に変換する、
    ことを特徴とする請求項1に記載の音声認識システム。
  3. 前記音声認識部は、音素を含む前記第1の情報と、カタカナを含む前記第2の情報と、ひらがな、カタカナ、漢字、記号、数字のいずれか、またはその組み合わせを含む前記他の出力情報とを対応付けた前記汎用辞書テーブルを用いて、前記入力された音声の音素を変換する、
    ことを特徴とする請求項1に記載の音声認識システム。
  4. コンピュータを用いてユーザから発話された音声を認識する音声認識システムで行われる音声認識方法であって、
    音声入力部が、前記音声を入力し、
    音声認識部が、所定の種類の辞書を用いて前記入力された音声を認識した結果を示す第1の情報と、前記第1の情報をユーザに認識可能な態様で出力する出力情報の種類を示す第2の情報とを対応付けて記憶した辞書定義テーブルを用いて、前記入力された音声を前記出力情報に変換し、
    前記音声認識部が、前記辞書定義テーブルに、前記第2の情報を他の種類の出力情報に置換する旨が登録されているか否かを判定し、
    前記音声認識部が、前記第2の情報を他の種類の出力情報に置換する旨が登録されていると判定した場合、前記第1の情報と他の種類の出力情報を含む第2の情報とを対応付けた汎用辞書テーブルを生成して前記音声認識システムに登録し、
    前記音声認識部が、登録した前記汎用辞書テーブルを用いて、前記第1の情報を前記他の種類の出力情報を含む第2の情報に変換する、
    ことを特徴とする音声認識方法。
  5. 前記音声認識部は、前記辞書定義テーブルに、前記第2の情報を他の種類の出力情報に置換する旨が登録されていないと判定した場合、前記汎用辞書テーブルに前記第1の情報と前記第2の情報とを登録せずに、前記第1の情報を前記第2の情報に変換する、
    ことを特徴とする請求項4に記載の音声認識方法。
  6. 前記音声認識部は、音素を含む前記第1の情報と、カタカナを含む前記第2の情報と、ひらがな、カタカナ、漢字、記号、数字のいずれか、またはその組み合わせを含む前記他の出力情報とを対応付けた前記汎用辞書テーブルを用いて、前記入力された音声の音素を変換する、
    ことを特徴とする請求項4に記載の音声認識方法。
JP2019214827A 2019-11-28 2019-11-28 音声認識システム、音声認識方法 Pending JP2021085996A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019214827A JP2021085996A (ja) 2019-11-28 2019-11-28 音声認識システム、音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019214827A JP2021085996A (ja) 2019-11-28 2019-11-28 音声認識システム、音声認識方法

Publications (1)

Publication Number Publication Date
JP2021085996A true JP2021085996A (ja) 2021-06-03

Family

ID=76087533

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019214827A Pending JP2021085996A (ja) 2019-11-28 2019-11-28 音声認識システム、音声認識方法

Country Status (1)

Country Link
JP (1) JP2021085996A (ja)

Similar Documents

Publication Publication Date Title
JP6251958B2 (ja) 発話解析装置、音声対話制御装置、方法、及びプログラム
JP5997217B2 (ja) 言語変換において複数の読み方の曖昧性を除去する方法
JP6004452B2 (ja) 言語モデル用の学習テキストを選択する方法及び当該学習テキストを使用して言語モデルを学習する方法、並びに、それらを実行するためのコンピュータ及びコンピュータ・プログラム
KR101259558B1 (ko) 문장경계 인식 장치 및 방법
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
KR101279676B1 (ko) 언어 모델을 생성하기 위한 방법, 가나-간지 변환 방법 및그 장치
JP2015094848A (ja) 情報処理装置、情報処理方法、およびプログラム
MX2007013357A (es) Metodo y sistema para generar sugerencias ortograficas.
JP6753401B2 (ja) 符号化プログラム、符号化装置、及び符号化方法
JP2018040906A (ja) 辞書更新装置およびプログラム
JPWO2012043168A1 (ja) 音声変換装置、携帯電話端末、音声変換方法およびプログラム
JP2007087397A (ja) 形態素解析プログラム、補正プログラム、形態素解析装置、補正装置、形態素解析方法および補正方法
JP7400112B2 (ja) 自動音声認識のための英数字列のバイアス付加
JP5502814B2 (ja) アラビア語テキストに発音区別符号を付与するための方法およびシステム
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
US20150058011A1 (en) Information processing apparatus, information updating method and computer-readable storage medium
JP5611270B2 (ja) 単語分割装置、及び単語分割方法
AU2021238965B2 (en) Speech recognition and training for data inputs
JP2021085996A (ja) 音声認識システム、音声認識方法
JP2010197709A (ja) 音声認識応答方法、音声認識応答システム、及びそのプログラム
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
JP2003162524A (ja) 言語処理装置
CN113924573A (zh) 翻译装置
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
JP4622861B2 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム