JP2018045001A

JP2018045001A - 音声認識システム、情報処理装置、プログラム、音声認識方法

Info

Publication number: JP2018045001A
Application number: JP2016178014A
Authority: JP
Inventors: 未友前田; Miyu Maeda; 藤田　健; Takeshi Fujita; 健藤田; 厚小久保; Atsushi Kokubo; 章敬中島; Akinori Nakajima
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2018-03-22

Abstract

【課題】音声認識により誤認識された文字等を修正できる音声認識システムを提供する。【解決手段】音声データに音声認識を行うクラウドサーバと、クラウドサーバに音声データを送信する情報処理装置とを有する音声認識システムであって、情報処理装置は、音声データの認識結果を含む認識結果データを取得する取得手段１１ｂと、第一の単語と第二の単語が対応付けて登録された単語情報の第一の単語が認識結果データに含まれる場合、認識結果データの第一の単語を第二の単語で置き換える単語置換手段１５と、単語置換手段が第一の単語を第二の単語で置き換えた認識結果データを出力する出力手段１３と、を有する。【選択図】図５

Description

本発明は、音声認識システム、情報処理装置、プログラム及び音声認識方法に関する。

人が発声する音声をマイクから取得し、音声認識を行うことでテキストデータに変換する音声認識技術が知られている。音声認識技術が適用された装置やシステムは音声を集音することで、例えば会議の議事録を作成したり、電話の内容を記録したりすることができる。テキストデータに変換されていればキーワードなどを簡単に検索することもできるようになる。

一方で、音声認識技術では、ユーザが正しく発声したにも関わらず、誤認識される場合がある。例えば、「普通」と発声した場合に「苦痛」と認識されるような場合である。また、同音異義語があるため正しく認識できない場合もある。例えば、「理工」という意味で発声したが「利口」という単語に変換されるような場合である。

従来からこれらのような誤認識結果の修正を行う技術が考案されている（例えば、特許文献１参照。）。特許文献１には、声認識処理により変換した第１文字列情報のうち、ユーザによって一部又は全部が選択された場合、選択された第１文字と、その第１文字と発音が同じで表記が異なる第２文字に関連するキーワードを含む第２音声情報とに基づいて、選択された第１文字を第２文字に変換する情報制御装置が開示されている。

しかしながら、特許文献１に開示された誤認識結果の修正方法では、変換された文字列の一部又は全てをユーザが選択する必要があるという問題がある。例えば、誤認識されている単語が含まれている可能性が高い場合でも、ユーザが手動で文字列を選択する必要があり、ユーザの負担になってしまう。

本発明は、上記課題に鑑み、音声認識により誤認識された文字等を修正できる音声認識システムを提供することを目的とする。

本発明は、音声データに音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムであって、音声データの認識結果を含む認識結果データを取得する取得手段と、第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換える単語置換手段と、前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力する出力手段と、を有する。

音声認識により誤認識された文字等を修正できる音声認識システムを提供することができる。

音声認識の結果の修正方法を説明する図の一例である。音声認識システムの概略構成図の一例である。情報処理装置の概略的なハードウェア構成図の一例である。情報処理装置の機能をブロック状に示す機能ブロック図の一例である。音声認識システムの動作手順を示すシーケンス図の一例である。単語置換部が行う処理の内容を示すフローチャート図の一例である。単語置換部が行う処理の内容を示すフローチャート図の一例である（実施例２）。単語置換部が行う処理の内容を示すフローチャート図の一例である（実施例３）。

以下、本発明を実施する音声認識システムと音声認識システムが行う音声認識方法について、図面を参照しながら実施例を挙げて説明する。

＜音声認識システムの動作の概略＞
図１は、音声認識の結果の修正方法を説明する図の一例である。
（１）情報処理装置１０は音声認識により得られた「… したがって、Ａ部品をＢ部品を差し込む気候により…」というテキストデータ（以下、認識結果データ８という）を有している。
（２）情報処理装置１０は、認識変換テーブルＤＢ１９ｂに登録されている誤認識候補単語で認識結果データ８を検索する。認識変換テーブルＤＢ１９ｂには「気候」という誤認識候補単語と「機構」という変換後単語が対応付けられている。
（３）認識結果データ８には「気候」という誤認識候補単語が含まれているので、情報処理装置１０は、認識結果データ８の「気候」という誤認識候補単語を「機構」という変換後単語で置き換える。

これにより、認識結果データ８で誤認識された「気候」という単語を正しい認識結果である「機構」に修正できる。

「機構」のように専門的な単語や固有名詞（社名、人名、地名等）などは誤認識されやすく、換言すると正しく認識しづらい単語である。本実施形態ではこのように、認識変換テーブルに、認識しづらい変換後単語と誤認識しやすい誤認識候補単語を対応付けておくことで、認識しづらい単語を正しい単語に修正できる。また、ユーザが誤認識候補単語を指定したり選択したりする必要がない。

＜システム構成例＞
図２は、本実施形態の音声認識システム１００の概略構成図の一例である。音声認識システム１００は、ネットワークＮを介して通信する情報処理装置１０（第二の情報処理装置）とクラウドサーバ５０（第一の情報処理装置）を有する。

クラウドサーバ５０は、音声をテキストデータに変換するサービスを行う情報処理装置の一例である。サーバ装置と呼ばれる場合がある。クラウドサーバ５０はクラウドベースの人口知能を利用しているため（つまり、多くの人が使う単語を学習しているため）、専門的な単語や造語、又は、使用頻度が極めて少ない単語を認識できない、又は認識しにくい。

また、クラウドサーバ５０のクラウドとは、サーバがクラウドコンピューティングに対応していることを意図している。クラウドとは特定ハードウェア資源を意識しないでネットワーク上のリソースを利用する利用形態である。この場合、クラウドサーバ５０は、１つの筐体に収納されていたり、又は、一台の装置として備えられていたりする必要はない。例えば、負荷に応じてハード的なリソースが動的に接続・切断されることで構成されてよい。また、一台の情報処理装置１０の中の仮想化環境に構築されていたり、複数台の情報処理装置１０に跨って構築されたりしてもよい。

また、本実施形態ではクラウドサーバ５０はインターネット上に存在するものとして説明するが、ネットワークに接続されていればどこに存在してもよい。オンプレミスに存在してもよい。また、クラウドサーバ５０はリソースの所在が明らかになっている通常のサーバであっても本実施形態に適用可能である。

情報処理装置１０は、例えばＰＣ（Personal Computer）であるが情報処理装置としての機能を有する装置であればよい。ＰＣの他、情報処理装置１０は例えば電子黒板、テレビ会議端末、ＭＦＰ（Multi-Function Peripheral）、プロジェクタ、デジタルサイネージなどでもよい。また、ＰＣの他、スマートフォン、タブレット端末、ゲーム機、ＰＤＡ（Personal Digital Assistant）、デジタルカメラ、携帯電話、ウェアラブルＰＣ（Personal Computer）などでもよい。

ネットワークＮは、情報処理装置１０が設置されている施設などに構築されているＬＡＮ、ＬＡＮをインターネットに接続するプロバイダのプロバイダネットワーク、及び、回線事業者が提供する回線等により構築されている。ネットワークＮが複数のＬＡＮを有する場合、ネットワークＮはＷＡＮやインターネットと呼ばれる。ネットワークＮは有線又は無線のどちらで構築されてもよく、また、有線と無線が組み合わされていてもよい。また、情報処理装置１０が３Ｇ、ＬＴＥ、４Ｇなどで直接、公衆回線網に接続する場合は、ＬＡＮを介さずにプロバイダネットワークに接続することができる。

音声認識システム１００による音声のテキストは一般的に以下のように行われる。
（１）ユーザが発声した音声データが情報処理装置１０からネットワーク経由でクラウドサーバ５０に送信される。なお、音声データの形式は問わない。ストリームデータ（データの生成と送信がリアルタイムに行われるデータ）でもよいし、ストリームではないファイルなどの固まりのデータでもよい。
（２）クラウドサーバ５０は音声データに音声認識処理を行いテキストデータに変換する。認識の際、クラウドサーバ５０は単語ごとに認識の信頼度を算出する。認識の信頼度は、認識結果をどれだけ「信頼」してよいかを表す尺度である（１に近いほど信頼度が高い）。また、変換候補が複数ある場合は、１つの単語に複数の候補とそれぞれの信頼度が作成される。
（３）信頼度を含む認識結果データ８がネットワーク経由で情報処理装置１０に送信される。
（４）情報処理装置１０は、認識結果データ８を表示する。例えば、認識結果データ８を信頼度に応じて色分けするなどして表示する。ユーザが単語をマウスなどのポインティングデバイスで押下すると、情報処理装置１０は他の変換候補を表示したり、信頼度を表示したりする。

＜ハードウェア構成＞
図３は、情報処理装置１０の概略的なハードウェア構成図の一例である。情報処理装置１０は、ＣＰＵ２０１と、ＣＰＵ２０１が使用するデータの高速アクセスを可能とするメモリ２０２とを備える。ＣＰＵ２０１及びメモリ２０２は、システム・バス２０３を介して、情報処理装置１０の他のデバイス又はドライバ、例えば、グラフィックス・ドライバ２０４及びネットワーク・ドライバ（ＮＩＣ）２０５へと接続されている。
グラフィックス・ドライバ２０４は、バスを介してＬＣＤ（ディスプレイ装置）２０６に接続されて、ＣＰＵ２０１による処理結果をモニタする。また、ネットワーク・ドライバ２０５は、トランスポート層レベル及び物理層レベルで情報処理装置１０をネットワークＮへと接続して、クラウドサーバ５０とのセッションを確立させている。
システム・バス２０３には、さらにＩ／Ｏバス・ブリッジ２０７が接続されている。Ｉ／Ｏバス・ブリッジ２０７の下流側には、ＰＣＩなどのＩ／Ｏバス２０８を介して、ＩＤＥ、ＡＴＡ、ＡＴＡＰＩ、シリアルＡＴＡ、ＳＣＳＩ、ＵＳＢなどにより、ＨＤＤ（ハードディスクドライブ）２０９などの記憶装置が接続されている。ＨＤＤ２０９は情報処理装置１０の全体を制御するプログラム２０９ｐを記憶している。ＨＤＤ２０９はＳＳＤ（Solid State Drive）でもよい。

また、Ｉ／Ｏバス２０８には、ＵＳＢなどのバスを介して、キーボード及びマウス（ポインティング・デバイスと呼ばれる）などの入力装置２１０が接続され、システム管理者などのオペレータによる入力及び指令を受け付けている。

また、Ｉ／Ｏバス２０８には、マイクＩ／Ｆなどを介してマイク２１１が接続されている。マイク２１１は周囲の音声を集音して電気信号に変換し、所定のサンプリング周波数で電気信号を取り込むことでデジタルデータに変更する。

なお、クラウドサーバ５０のハードウェア構成はマイク２１１やＬＣＤ２０６が不要となるなどの違いがあるが、本実施形態の説明に際しては支障がないものとする。また、クラウドサーバ５０のハードウェア構成は、１つの筐体に収納されていたりひとまとまりの装置として備えられていたりする必要はない。

＜機能について＞
図４（ａ）は、情報処理装置１０の機能をブロック状に示す機能ブロック図の一例である。情報処理装置１０は、通信部１１、音声入力部１２、表示部１３、制御部１４、及び、単語置換部１５を有する。これら各機能は、図３に示したＨＤＤ２０９からメモリ２０２に展開されたプログラム２０９ｐをＣＰＵ２０１が実行することにより実現されている。なお、このプログラム２０９ｐは、プログラム配信用のサーバから配信されてもよいし、ＵＳＢメモリや光記憶媒体などの可搬性の記憶媒体に記憶された状態で配布されてもよい。

また、情報処理装置１０は、図３に示したＨＤＤ２０９及びメモリ２０２の少なくとも一方に実現される記憶部１９を有する。記憶部１９には、テキスト変換結果ＤＢ１９ａ（ＤａｔａＢａｓｅ）と認識変換テーブルＤＢ１９ｂが構築される。以下、これらのデータベースについて説明する。

表１は、認識変換テーブルＤＢ１９ｂに格納されている認識変換テーブルを模式的に示す。認識変換テーブルには、誤認識候補単語と変換後単語が対応付けられている。変換後単語は、例えば、専門的な単語、固有名詞、特定の業種や部署で使用される造語、又は、使用頻度が少ない単語などである。本実施形態では、これらを認識しづらい単語という。変換後単語は、実際に音声認識された際に誤認識される確率や経験則で誤認識される確率が所定以上の単語として選定されている。実際に音声認識することなく、コーパス内の出現頻度が所定以下の単語を誤認識候補単語としてもよいし、誤認識される可能性が高いと考えられる単語が誤認識候補単語として定められていてもよい。

誤認識候補単語は、変換後単語が誤認識されている可能性が高い単語である。すなわち、変換後単語は認識しづらいので、変換後単語に対し誤って認識される可能性がある単語が誤認識候補単語である。例えば変換後単語の「機構」に対し、「気候」「紀行」「寄稿」「気孔」「技巧」「技工」が誤認識候補単語である。ただし、この関係が一例であって、例えば「気孔」が変換後単語になる場合もあり得る。

後述するように、情報処理装置１０は認識変換テーブルを参照し、認識結果データ８の単語が誤認識候補単語と一致する場合、誤認識候補単語を変換後単語に置き換える。

なお、認識変換テーブルＤＢ１９ｂには、実際に単語置換部１５や制御部１４が表示すると決定した表示内容の情報も記憶される。

表２は、テキスト変換結果ＤＢ１９ａに記憶される認識結果データ８を模式的に示す。テキスト変換結果ＤＢ１９ａは認識結果データ８が記憶されるデータベースである。表２（ａ）は認識結果データ８が英語の場合の認識結果データ８を示し、表２（ｂ）は認識結果データ８が日本語の場合の認識結果データ８を示す。

表２（ａ）の認識結果データ８は、「Absolute」という音声が入力された場合に認識された認識結果を示す。本実施形態のクラウドサーバ５０からは１つの単語に対し、複数のテキスト化候補と対応する信頼度が送信される。信頼度は 0.0 〜 1.0 の範囲の値を取り、数値が１．０に近いほど正しい認識結果である可能性が高い。より具体的には、１つの認識対象の単語に対しテキスト化候補となる単語との類似度などが算出され0.0 〜 1.0 の数値で表されている。

表２（ｂ）の認識結果データ８は、「機構」という音声が入力された場合の認識結果を示す。英語の「Absolute」と単語と同様に、複数のテキスト化候補と対応する信頼度がクラウドサーバ５０から送信される。

（情報処理装置１０の機能）
音声入力部１２は、図３に示したＣＰＵ２０１がプログラム２０９ｐを実行しマイク２１１を制御すること等により実現され、テキストデータへの変換の対象となる音声データの入力を受け付ける。なお、マイク２１１から音声データが入力される場合、音声データはストリームデータと呼ばれる。マイク２１１が使用されない場合、音声データはファイルとして記憶されている。音声入力部１２はこのファイルをＨＤＤ２０９等から読み出すことで取得してもよい。音声データが格納されるファイルとしては、ＷＡＶＥファイル、ＡＩＦＦファイル、ＭＰ３ファイル、ＡＡＣファイル等があるがこれらには限られない。

通信部１１は、図３に示したＣＰＵ２０１がプログラム２０９ｐを実行しネットワーク・ドライバ２０５を制御すること等により実現される。通信部１１はさらに、音声送信部１１ａと認識結果受信部１１ｂを有する。音声送信部１１ａは、音声入力部１２が入力を受け付けた音声データをWebSocket、ＨＴＴＰ、ＨＴＴＰｓなどの通信プロトコルでクラウドサーバ５０に送信する。クラウドサーバ５０のＩＰアドレスは予め既知であるとする。認識結果受信部１１ｂは、音声データがテキストデータに変換された認識結果データ８をクラウドサーバ５０から例えばＨＴＭＬデータで受信する。

制御部１４は、図３に示したＣＰＵ２０１がプログラム２０９ｐを実行すること等により実現され、ユーザインタフェースからの入力の受付やそれに応じて情報処理装置１０の制御を行う。

単語置換部１５は、図３に示したＣＰＵ２０１がプログラム２０９ｐを実行すること等により実現され、制御部１４からの指示によりＬＣＤ２０６に表示する表示内容を決定する。また、認識結果受信部１１ｂが受信した音声認識データの単語を、認識変換テーブルを参照して置き換える。

表示部１３は、図３に示したＣＰＵ２０１がプログラム２０９ｐを実行しグラフィックス・ドライバ２０４を制御すること等により実現される。表示部１３は、テキスト変換結果ＤＢ１９ａの認識結果データ８や単語置換部１５が単語を置き換えた認識結果データ８をＬＣＤ２０６に表示する。

<<クラウドサーバの機能について>>
図４（ｂ）はクラウドサーバ５０の機能をブロック状に示す機能ブロック図の一例である。クラウドサーバは、前処理部３１、特徴抽出部３２、及び識別演算部３３を有し、識別演算部３３はさらに音響モデル３４と言語モデル３５を使用する。これら各機能は、図３に示したＨＤＤ２０９からメモリ２０２に展開されたプログラム２０９ｐをＣＰＵ２０１が実行することにより実現されている。

前処理部３１は音声データに特徴抽出しやすくするための処理を施す。例えば、音声データを決まった段階に量子化する。また、前処理部３１は音声データを周波数スペクトルに変換して雑音に相当する周波数部分を除去するなどの処理を行う。特徴抽出部３２は音声データからパターンの認識に役立つ情報を取り出す。音声データは連続データなので例えば２０ミリ秒などの所定時間ごとに音声データを区切って、この所定時間ごとに特徴を抽出する。音声データの場合、例えば、周波数スペクトルに変換してフォルマント又はＭＦＣＣ（Mel Frequency Cepstrum Coefficient）を抽出する。フォルマントやＭＦＣＣの求め方は公知なので説明を省略する。これにより、音声データから数十次元の特徴ベクトルが得られる。

識別演算部３３は音響モデル３４と言語モデル３５を使って、音声データをテキストデータに変換する。音響モデル３４は音声の波形とその時の音声のテキストデータを紐付けたものである。音声の波形は一例としてトライフォンと呼ばれる３つの音素が組み合わされた組音素で表される。言語モデル３５はテキストデータから作成された単語と単語のつながり方を確率で表現したデータである。たとえば、「特許を」に続いて「取る」「取得する」「放棄する」などの単語がそれぞれどのくらいの確率で出現するかというデータを有する。識別演算部３３は入力された音声データの特徴ベクトルと音響データを比較しトライフォンを推定する。これを連続して行い言語モデル３５を参照しながら最も出現確率が高い単語を推定していく。音声データが音響データとどのくらい類似しているか、及び、言語データの出現確率によっては単語が一意に定まらないため、入力された音声データの単語に対し複数の単語が推定される場合も多い。また、出現確率に基づいて信頼度が算出される。

なお、ここで説明した音声認識方法は一例に過ぎず、クラウドサーバ５０に特有の方法で音声認識されてよい。本実施形態の単語の置き換えはクラウドサーバ５０の音声認識方法に関係なく適用できる。ただし、信頼度が得られるとなお好ましい。

＜動作手順＞
図５は、音声認識システム１００の動作手順を示すシーケンス図の一例である。

S1：ユーザは情報処理装置１０のＬＣＤ２０６に表示されたソフトキーやハードキーを押下して音声認識を開始するための操作を行う。どのように音声認識を開始するかは情報処理装置１０が具体的にどのような装置であるかによって異なる。例えばＰＣの場合、クラウドサーバ５０から送信されたＨＴＭＬデータを解析して表示した画面のスタートボタンを押下する。また、電子黒板やテレビ会議端末の場合、他拠点の情報処理装置１０とセッションが確立することで音声認識がスタートしてよい。

音声認識が開始されるとユーザは、テキストデータに変換したい音声をマイク２１１が集音できる態様で発声する。上記のように、ユーザが音声のファイルを入力してもよい。

S2：音声入力部１２は音声データをサンプリングする処理を繰り返し、アナログの音声をデジタルの音声データに変換して、音声送信部１１ａに送出する。

S3：音声送信部１１ａは例えばＷｅｂＳｏｃｋｅｔを使用して音声データをクラウドサーバ５０に送信する。ＨＴＴＰやＨＴＴＰｓなどの通信プロトコルで送信してもよい。しかし、ＷｅｂＳｏｃｋｅｔによって両者の間に永続的なＴＣＰコネクションを構築することができ、双方がそれぞれ必要に応じて送信を開始できるようになる。サーバ側からも任意のタイミングで通信を開始することができるため、ストリームデータの処理に適している。

S4：クラウドサーバ５０は音声データをテキストデータに変換する。

S5：クラウドサーバ５０は認識結果データ８を情報処理装置１０に送信する。

S6：情報処理装置１０の認識結果受信部１１ｂは認識結果データ８を受信し、認識結果受信部１１ｂは認識結果データ８を記憶部１９に送出する。

S7：記憶部１９は、テキスト変換結果ＤＢ１９ａに認識結果データ８を記憶させる。

S8：単語置換部１５は、テキスト変換結果ＤＢ１９ａを監視しており、新たな認識結果データ８が記憶されるとそれを読み出す。

S9、S10：単語置換部１５は、認識変換テーブルを記憶部１９に要求し、記憶部１９から認識変換テーブルを読み出す。

S11：単語置換部１５は、認識変換テーブルの誤認識候補単語が認識結果データ８に含まれているか否かを判断する。含まれている場合、認識結果データ８の誤認識候補単語を変換後単語で置き換える。

S12：単語置換部１５は、誤認識候補単語が変換後単語で置き換えられた認識結果データ８を表示部１３に送出する。この認識結果データは表示されるため表示内容と呼ばれる場合がある。

S13：単語置換部１５が表示部に表示内容を送出すると、表示内容の表示準備が完了した旨を制御部１４に通知する。

S14：これを受けて制御部１４は表示部１３に表示内容の表示を指示する。

S15：表示部１３は単語置換部１５から送出された表示内容をＬＣＤ２０６に表示する。

S16：ユーザは発声した音声の認識結果を確認する。なお、表示内容を表示するのでなく、記憶部１９や記憶媒体に記憶するだけでもよいし、プリンタで印刷してもよい。また、情報処理装置１０が任意の装置に送信してもよい。すなわち、認識結果データ８は何らかの形態で出力されればよい。

<<単語置換部１５の処理について>>
図６は、単語置換部１５が行う処理の内容を示すフローチャート図の一例である。図６の処理は、図５のステップＳ１１にて実行される。

単語置換部１５は信頼度を含む認識結果データ８と認識変換テーブルを取得する（Ｓ１１−１）。

次に、単語置換部１５は認識変換テーブルの誤認識候補単語が認識結果データ８に含まれているか否かを判断する（Ｓ１１−２）。

ステップＳ１１−２の判断結果がＹｅｓの場合、認識結果データ８の誤認識候補単語を認識変換テーブルの変換後単語を用いて置き換える（Ｓ１１−３）。複数の誤認識候補単語がある場合は、全てを置き換える。

ステップＳ１１−２の判断結果がＮｏの場合、単語置換部１５は置き換えを行わない。

以上説明したように、本実施例の音声認識システム１００は、認識しづらい単語と誤認識される可能性がある誤認識候補単語が予め記憶部１９に記憶されているので、認識しづらい単語を正しい単語に修正できる。

本実施例では、クラウドサーバ５０から送信される誤認識候補単語の信頼度を利用して、変換後単語への置き換えを行うか否かを判断する情報処理装置１０について説明する。

なお、本明細書において、同一の符号を付した構成要素については、同様の機能を果たすので、一度説明した構成要素の説明を省略あるいは相違点についてのみ説明する場合がある。具体的には、図２のシステム構成、図３のハードウェア構成、図４の機能ブロック図、及び、図５のシーケンス図については実施例１と同様であるため、これらを再掲することなく必要に応じて参照して説明する。

本実施例では、単語置換部１５が、誤認識候補単語の信頼度が閾値以下の場合に、誤認識候補単語を変換後単語で置き換える。実施例１では、誤認識候補単語が正しい認識結果の場合でも自動的に変換後単語に置き換えられていたが、本実施例では信頼度が閾値より低い場合にだけ置き換えることが可能になる。

このため、本実施例では、認識変換テーブルが実施例１とは異なっている。以下、説明する。

表３は、本実施例の認識変換テーブルを模式的に示す。誤認識候補単語ごとに、閾値が登録されている。この誤認識候補単語の信頼度が対応付けられた閾値以下の場合、単語置換部１５は誤認識候補単語を変換後単語で置き換える。こうすることで、誤認識候補単語の信頼度が高い場合は変換後単語で置き換えられないので、クラウドサーバ５０の認識結果が正しい場合に情報処理装置１０が誤って置き換えることを抑制できる。

また、誤認識候補単語ごとに閾値が設定されているので、管理者等は誤認識候補単語ごとに置き換えるか否かの閾値を適切に決定できる。情報処理装置１０の管理者等は、例えば何らかのコーパスで使用頻度の高い誤認識候補単語ほど閾値を低く設定できる。これにより、使用頻度が高い誤認識候補単語は置き換えられにくくなる。

＜単語置換部１５の処理について＞
図７は、単語置換部１５が行う処理の内容を示すフローチャート図の一例である。図７の処理は、図５のステップＳ１１にて実行される。

図７の処理では図６との相違を主に説明する。まず、ステップＳ１１−１とＳ１１−２は図６と同様でよい。

ステップＳ１１−２の判断結果がＹｅｓの場合、単語置換部１５は、誤認識候補単語の信頼度が、認識変換テーブルの誤認識候補単語に対応付けられた閾値以下か否かを判断する（Ｓ１１−３）。

ステップＳ１１−３の判断がＹｅｓの場合、単語置換部１５は誤認識候補単語を変換後単語を用いて置き換える（Ｓ１１−４）。複数の誤認識候補単語がある場合は、各誤認識候補単語の信頼度と閾値の比較結果に応じて個別に判断する。

ステップＳ１１−３の判断結果がＮｏの場合、単語置換部１５は置き換えを行わない。

したがって、本実施例の情報処理装置１０は、実施例１の効果に加え、クラウドサーバ５０の認識結果が正しい場合に情報処理装置１０が誤って置き換えることを抑制できる。

本実施例では、トピックごとに認識変換テーブルが用意されている情報処理装置１０について説明する。

トピックとは、音声が伝える情報の内容である。トピックは、例えば、話題、論題、議題、分野、カテゴリーなどと呼ばれる場合があり、音声が伝える情報の内容を表す表現であればよい。認識変換テーブルがトピックごとに用意されている場合、管理者等がトピックと関連性が高い変換後単語のみを認識変換テーブルに登録しておけばよい。これにより、情報処理装置１０は、トピックと関連性が高い変換後単語が誤認識された場合には、誤認識候補単語により変換後単語に置き換えることができる。換言すると、トピックとの関連性が低い変換後単語は認識変換テーブルに登録されないので、トピックで認識変換テーブルを区別しない場合に登録され得る誤認識候補単語（つまり実施例１、２の誤認識候補単語）が認識変換データに含まれていても、誤って置き換えることを抑制できる。

本実施例においても、図２のシステム構成、図３のハードウェア構成、図４の機能ブロック図、及び、図５のシーケンス図については実施例１と同様であるため、これらを参照して説明する。

本実施例では、認識変換テーブルが実施例１、２とは異なっている。以下、説明する。

表４は、本実施例の認識変換テーブルを模式的に示す。表４の認識変換テーブルでは、トピックごとに、誤認識候補単語、変換後単語、閾値１（第一の閾値），及び、閾値２（第二の閾値）が対応付けられている。トピックの一例として、「社内」「ＩＴ」「建築」が挙げられているが、特許、不動産、金融、経理、法務など多種多様なトピックがあり得る。

社内というトピックの認識変換テーブルは実施例２と同様である。ＩＴというトピックの認識変換テーブルでは「アーカイブ」という変換後単語がいくつかの誤認識候補単語に対応付けられている。建築というトピックの認識変換テーブルでは「アーキテクト」という変換後単語がいくつかの誤認識候補単語に対応付けられている。

トピックごとに変換後単語が登録されれば、トピックごとの誤認識候補単語も少なくてよいため、情報処理装置１０による検索も高速になるという利点がある。

１つの誤認識候補単語に対応付けられている複数の閾値（閾値１，閾値２）について説明する。
・閾値１は、トピックが判明していない場合、ユーザがトピックを入力しなかった場合、
又は、入力されたトピックが認識変換テーブルのトピックと合致しなかった場合に使用される。
・閾値２は、トピックが合致した場合に使用される。

１組の誤認識候補単語と変換後単語に着目すると、閾値１より閾値２の方が大きい。これは、トピックが分かっている場合、クラウドサーバ５０が認識する誤認識候補単語の信頼度が高くなるためである。信頼度が高くなっても閾値２の値も大きいため、トピックと関連性が高い変換後単語に置き換えやすくなる。

＜単語置換部１５の処理について＞
図８は、単語置換部１５が行う処理の内容を示すフローチャート図の一例である。図８の処理は、図５のステップＳ１１にて実行される。トピックについてはユーザが会話を開始する前に情報処理装置１０に入力されているものとする。制御部１４はユーザが入力したトピックを受け付ける。

次に、単語置換部１５はユーザが入力したトピックが認識変換テーブルに含まれているか否かを判断する（Ｓ１１−２）。なお、この判断はユーザがトピックを入力した時に行ってよい。

ステップＳ１１−２の判断がＹｅｓの場合、単語置換部１５は認識変換テーブルの誤認識候補単語が認識結果データ８に含まれているか否かを判断する（Ｓ１１−３）。認識結果データ８で検索される誤認識候補単語は、トピックが合致するものに限られる。

ステップＳ１１−３の判断結果がＹｅｓの場合、単語置換部１５は、誤認識候補単語の信頼度が、認識変換テーブルの誤認識候補単語に対応付けられた閾値１以下（第一の閾値以下）か又は閾値２以下（第二の閾値以下）かを判断する（Ｓ１１−４）。ステップＳ１１−２でＹｅｓと判断されているため、閾値２を採用すると決定する。トピックが決まっているので信頼度が高くなっていても、誤認識候補端を変換後単語で置き換えられる。

ステップＳ１１−４の判断がＹｅｓの場合、単語置換部１５は誤認識候補単語を変換後単語を用いて置き換える（Ｓ１１−５）。複数の誤認識候補単語がある場合は、各誤認識候補単語の信頼度と閾値の比較結果に応じて個別に判断する。

ステップＳ１１−２の判断結果がＮｏの場合、単語置換部１５は認識変換テーブルの誤認識候補単語が認識結果データ８に含まれているか否かを判断する（Ｓ１１−６）。認識結果データ８で検索される誤認識候補単語は、認識変換テーブルの全ての誤認識候補単語である。

ステップＳ１１−６の判断結果がＹｅｓの場合、処理はステップＳ１１−４に進むが、ステップＳ１１−２でＮｏと判断されているので、閾値１を採用すると決定する。

このように、トピックごとに認識変換テーブルが用意されていることで、クラウドサーバ５０の認識結果が正しい場合に情報処理装置１０が不要な置換を行うことを抑制できる。また、置き換えに要する時間を短縮できる。

＜変形例＞
表４の認識変換テーブルでは、異なるトピックに同じ変換後単語は含まれていないが、異なるトピックに同じ変換後単語が含まれている場合に、閾値２があることで適切な変換が可能にある。

誤認識候補単語が正しいか又は誤認識されているかはトピックによって変わりうる。例えば、日常会話というトピックで「きこう」は「気候」という誤認識候補単語が正しい場合があり、開発会議というトピックで「きこう」は「機構」という誤認識候補単語が正しい場合がある。このような知見がある場合、管理者等は「気候」と「機構」の閾値２を各トピックで適切に設定することができる。

表５は認識変換テーブルの一例を模式的に示す。２つのトピックである「日常会話」と「開発会議」のそれぞれに誤認識候補単語の「気候」と変換後単語の「機構」が登録されている。「日常会話」の「気候」の閾値２は０．３０であり、「開発会議」の「気候」の閾値２は０．５０である。

したがって、トピックが「日常会話」の場合に、認識結果データ８に「気候」が含まれている場合、閾値２が小さいので「機構」に置き換えられにくくなる。この結果、「日常会話」ではクラウドサーバ５０が正しく認識した単語を誤って置き換えることを抑制できる。また、トピックが「開発会議」の場合に、認識結果データ８に「気候」が含まれている場合、閾値２が大きいので「機構」に置き換えられやすい。この結果、「開発会議」ではクラウドサーバ５０が誤って認識した単語を正しい単語に置き換えることができる。

＜まとめ＞
本実施形態の音声認識システム１００は、認識変換テーブルに認識しづらい変換後単語と誤認識しやすい誤認識候補単語を対応付けておくことで、クラウドサーバ５０が認識しづらい単語を、本来の単語に修正できる。また、誤認識候補単語に対応付けられている閾値を利用することで、不要な置き換えを抑制できる。さらに、トピックごとに認識変換テーブルが用意されることで、誤って置き換えることを抑制できる。また、認識結果データ８の検索に要する時間を短縮できる。

＜その他の適用例＞
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

例えば、本実施形態ではクラウドサーバ５０がインターネット上にあると説明したが、クラウドサーバ５０は情報処理装置１０と同じＬＡＮに接続されていてもよい。また、音声認識データはクラウドサーバ５０から送信される必要はなく、情報処理装置１０のＨＤＤ２０９に記憶されていてもよい。すなわち、音声認識データはファイル形式で保持されていてもよい。

また、クラウドサーバ５０の音声認識に関する機能を情報処理装置１０が有していてもよい。この場合、情報処理装置１０は単体で音声認識を行い、認識結果データを認識変換テーブルに基づいて置き換える。

また、クラウドサーバ５０が複数有り、１台の情報処理装置１０が認識結果データを修正してもよい。あるいは、１台のクラウドサーバ５０が送信する認識結果データを、複数の情報処理装置１０が分担して修正してもよい。

また、認識結果データを表示する例を説明したが、認識結果データで何らかの装置を操作したり、ネットワークの検索のキーワードとしたりすることもできる。また、字幕のように表示してもよい。

また、本実施形態では、単語という単位で置き換えを行ったが、より長い単位の文節や分で置き換えてもよい。また、単語よりも小さい文字などの単位で置き換えを行ってもよい。

また、図４の構成例は、情報処理装置１０の処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。また、情報処理装置１０の処理は、処理内容に応じてさらに多くの処理単位に分割することもできる。また、１つの処理単位がさらに多くの処理を含むように分割することもできる。

なお、認識結果受信部１１ｂは取得手段の一例であり、単語置換部１５は単語置換手段の一例であり、表示部１３は出力手段の一例であり、認識変換テーブルは単語情報の一例であり、誤認識候補単語は第一の単語の一例であり、変換後単語は第二の単語の一例であり、制御部１４は受付手段の一例である。

１０情報処理装置
１１通信部
１２音声入力部
１３表示部
１４制御部
１５単語置換部
１９記憶部
５０クラウドサーバ
１００音声認識システム

特開２０１６−１１１４９７号公報

Claims

音声データに対し音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムであって、
音声データの認識結果を含む認識結果データを取得する取得手段と、
第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換える単語置換手段と、
前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力する出力手段と、
を有する音声認識システム。
前記第二の単語は誤認識される可能性が所定以上の単語であり、前記第一の単語は前記第二の単語が誤認識された単語である請求項１に記載の音声認識システム。
前記認識結果データの単語には認識結果の信頼度が対応付けられており、
前記単語情報には、前記第一の単語と前記第二の単語に対応付けて閾値が登録されており、
前記単語置換手段は、前記第一の単語が前記認識結果データに含まれる場合、前記第一の単語の信頼度と前記単語情報に登録されている閾値の比較の結果に基づいて、前記認識結果データの前記第一の単語を前記第二の単語で置き換えるかどうかを決定する請求項１又は２に記載の音声認識システム。
前記単語置換手段は、前記第一の単語が前記認識結果データに含まれる場合、前記第一の単語の信頼度が前記単語情報に登録されている閾値以下の場合にのみ、前記認識結果データの前記第一の単語を前記第二の単語で置き換える請求項３に記載の音声認識システム。
前記単語情報は、音声データが伝える情報の内容ごとに用意されている請求項３又は４に記載の音声認識システム。
前記単語情報には、１つの前記第一の単語に複数の前記閾値が対応付けられており、
前記音声データが伝える情報の内容の入力を受け付ける受付手段を有し、
前記受付手段が受け付けた前記音声データが伝える情報の内容に対し用意された前記単語情報があるか否かに応じて、
前記単語置換手段は、前記第一の単語の信頼度と比較する前記閾値を決定する請求項５に記載の音声認識システム。
前記受付手段が受け付けた前記音声データが伝える情報の内容に対し用意された前記単語情報がない場合、
前記単語置換手段は、前記第一の単語が前記認識結果データに含まれ、かつ、前記第一の単語の信頼度が第一の閾値以下の場合にのみ、前記認識結果データの前記第一の単語を前記第二の単語で置き換え、
前記受付手段が受け付けた前記音声データが伝える情報の内容に対し用意された前記単語情報がある場合、
前記単語置換手段は、前記第一の単語が前記認識結果データに含まれ、かつ、前記第一の単語の信頼度が第二の閾値以下の場合にのみ、前記認識結果データの前記第一の単語を前記第二の単語で置き換え、
前記第一の閾値は前記第二の閾値よりも小さい請求項６に記載の音声認識システム。
前記音声データが伝える情報の内容が異なる前記単語情報には、
同じ前記第一の単語が登録されており、それぞれの前記第一の単語に対応付けられている前記閾値が異なっている請求項６又は７に記載の音声認識システム。
音声データの認識結果を含む認識結果データを取得する取得手段と、
第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換える単語置換手段と、
前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力する出力手段と、
を有する情報処理装置。
情報処理装置を、
音声データの認識結果を含む認識結果データを取得する取得手段と、
第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換える単語置換手段と、
前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力する出力手段、として機能させるためのプログラム。
音声データに対し音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムが行う音声認識方法であって、
取得手段が、音声データの認識結果を含む認識結果データを取得するステップと、
単語置換手段が、第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換えるステップと、
出力手段が、前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力するステップと、
を有する音声認識方法。