JP6233867B2

JP6233867B2 - 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム

Info

Publication number: JP6233867B2
Application number: JP2012042144A
Authority: JP
Inventors: 敬子稲垣
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2012-02-28
Filing date: 2012-02-28
Publication date: 2017-11-22
Anticipated expiration: 2032-02-28
Also published as: JP2013178384A

Description

本発明は、音声認識用の辞書登録を行う音声認識用辞書登録システム、音声認識を行う音声認識システム、音声認識サービスシステム、方法およびプログラムに関する。

モバイル端末に入力された音声を認識して日報作成を行うシステムにおいて、音声認識の精度を向上させるためには、ユーザに適した単語を選択可能な辞書データ（以下、単に辞書という）を使用することが重要である。

音声認識に用いられる辞書に登録されている単語が増えすぎると、認識処理の遅延や類似単語への誤認識による精度劣化が起こりやすくなる。また、辞書に登録されている単語が少ない場合には、当該単語を認識することができず、認識精度が劣化する。音声入力の内容は、ユーザ毎に異なる。そのため、一般的には、全てのユーザに適用する共通辞書（以下言語モデル）とは別に、個人別のユーザ辞書が用いられることが多い。

一般的な音声認識システムでは、言語モデルは、認識エンジンと共に提供されている。また、ユーザが単語を登録する場合には、別途ユーザ辞書が作成されている。このユーザ辞書に登録されるのは、単語の表記、読みおよび品詞情報のみである。そのため、言語モデルに単語が登録される時よりも認識精度が落ちるという問題がある。この問題を解決するため、最近では、ユーザが登録したい単語を言語モデルに登録できる仕組みが提供されている。

関連する技術として、例えば特許文献１に記載されたシステムは、携帯端末でメール文を作成する場合に、入力された音声に基づいて文字列の作成を行う。特許文献１に記載されたシステムは、携帯端末とネットワーク上にある音声認識サーバとから構成されている。音声認識サーバは、携帯端末から送信された音声データを認識して文字データを生成し、生成した文字データを携帯端末に送信する。

また、特許文献１には音声認識に用いる辞書を更新する技術が記載されている。特許文献１に記載されたシステムでは、音声認識サーバから携帯端末に送信された認識結果がユーザによって修正された後、修正結果が音声認識サーバに送信されると、音声認識サーバは、修正結果に基づいて音声認識用の辞書を修正する。

特開２００９−０７５５８２号公報

言語モデルは、学習対象として用意された大量の文章が解析され、所定の統計情報処理が行われることにより作成される。言語モデルは、辞書に記述された各単語について、出現確率や接続確率をデータ化したものである。

通常話し方はユーザ毎に異なるため、各単語の出現確率や接続確率もユーザ毎に異なる。したがって、音声認識の精度の向上を図るためには、このような違いを考慮して音声認識を行うことが望ましい。しかし、言語モデルをユーザ毎に作成することは、システムリソースの問題や運用の問題などから困難である。

そのため、ある特定のグループで共通の言語モデルを使用し、各ユーザが個別にその言語モデルに単語や文章を登録するという運用が考えられている。しかし、この場合には、ユーザが言語モデルに単語を登録し、その単語を認識しやすくするためには、該当する単語が入った大量の文章を登録しないと効果が出にくいという問題がある。また、人により登録したい単語が異なる場合には、その調整ができず、結果的に、大量に登録された単語が出やすくなるという問題がある。

また、日報作成システム等に入力する音声入力の内容は、同じユーザであっても状況（例えば顧客や商談のフェーズなど）によって異なる。したがって、音声認識の精度を向上させるためには、各単語の出現確率や接続確率はそれらを考慮して決められることが必要になる。

特許文献１に記載されたシステムは、辞書を更新する手段を備えているが、文字列を修正した部分からのみ辞書を修正するため、修正していない情報を追加することが出来ない。また、特許文献１に記載されたシステムは、音声入力を行う状況（例えば日報作成時の顧客や商談のフェーズの違い）を考慮して言語モデルを作成することはできない。すなわち、特許文献１に記載されたシステムは、顧客毎に異なる用語や商談フェーズによる用語の使い分けを行うことによって音声認識の精度を向上させることができない。

そこで、本発明は、複数のユーザで共通の言語モデルを使用する構成でありながらも、個々のユーザに適した音声認識を行うことができ、かつ音声入力時の状況を考慮して音声認識の精度を向上させることができる音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、音声認識サービス方法および音声認識サービスプログラムを提供することを目的とする。

本発明による音声認識サービスシステムは、入力された音声に関連する付加情報を収集する付加情報収集手段と、音声認識による音声の認識結果と付加情報収集手段が収集した付加情報とに基づいて、音声認識の際に用いられる音声認識用辞書を更新する辞書更新手段と、音声に対応付けられた付加情報と音声認識用辞書とに基づいて、該音声の音声認識を行う音声認識手段とを備え、音声認識用辞書が、単語に対応付けて付加情報を登録するための付加情報登録辞書と、言語モデルとを含み、辞書更新手段が、音声の認識結果と付加情報収集手段が収集した該音声に関連する付加情報とに基づいて、付加情報登録辞書を更新し、音声認識手段が、入力された音声に関連する付加情報と付加情報登録辞書の付加情報とが一致している単語について、言語モデルに含まれる該当する単語の出現確率に重み付けをして出現確率を上げ、該入力された音声の音声認識を行うことを特徴とする。

本発明による音声認識サービス方法は、入力された音声に関連する付加情報を収集するステップと、音声認識による音声の認識結果と収集した付加情報とに基づいて、音声認識の際に用いられる音声認識用辞書であって、単語に対応付けて付加情報を登録するための付加情報登録辞書と、言語モデルとを含む音声認識用辞書を更新するステップと、音声に対応付けられた付加情報と音声認識用辞書とに基づいて、該音声の音声認識を行うステップと、を有し、音声認識用辞書を更新するステップでは、音声の認識結果と収集した該音声に関連する付加情報とに基づいて、付加情報登録辞書を更新し、音声認識を行うステップでは、入力された音声に関連する付加情報と付加情報登録辞書の付加情報とが一致している単語について、言語モデルに含まれる該当する単語の出現確率に重み付けをして出現確率を上げ、該入力された音声の音声認識を行うことを特徴とする。

本発明による音声認識サービスプログラムは、コンピュータに、入力された音声に関連する付加情報を収集する付加情報収集処理と、音声認識による音声の認識結果と付加情報とに基づいて、音声認識の際に用いられる音声認識用辞書であって、単語に対応付けて付加情報を登録するための付加情報登録辞書と、言語モデルとを含む音声認識用辞書を更新する辞書更新処理と、音声に対応付けられた付加情報と音声認識用辞書とに基づいて、該音声の音声認識を行う音声認識処理とを実行させ、辞書更新処理で、音声の認識結果と付加情報収集処理で収集した該音声に関連する付加情報とに基づいて、付加情報登録辞書を更新させ、音声認識処理で、入力された音声に関連する付加情報と付加情報登録辞書の付加情報とが一致している単語について、言語モデルに含まれる該当する単語の出現確率に重み付けをして出現確率を上げ、該入力された音声の音声認識を行わせることを特徴とする。

本発明によれば、複数のユーザで共通の言語モデルを使用する構成でありながらも、個々のユーザに適した音声認識を行うことができ、かつ音声入力時の状況を考慮して音声認識の精度を向上させることができる。

本発明による音声認識システムと音声認識用辞書登録システムとが適用された音声認識サービスシステムの構成の一例を示すブロック図である。音声認識システムの音声認識手段および音声認識用辞書の構成例を示すブロック図である。言語モデル内の単語に付加情報に基づいて出現確率の重み付けをするために用いられる追加単語辞書の具体例を示す説明図である。音声認識用辞書登録システムの動作手順を示すフローチャートである。一般的な音声認識システムの構成を示すブロック図である。音声認識システムと音声認識用辞書登録システムとが適用された営業日報システムの構成の一例を示すブロック図である。日報データベースに含まれる日報データの具体例を示す説明図である。音声認識サービスシステムの最小の構成例を示すブロック図である。

以下、本発明の実施形態を図面を参照して説明する。図１は、本発明による音声認識システムと音声認識用辞書登録システムとが適用されたシステムの構成の一例を示すブロック図である。図１に示されるように、本発明による音声認識システムと音声認識用辞書登録システムとが適用されたシステムは、モバイル端末１と音声認識システム２と音声認識用辞書登録システム３とを含む。また、モバイル端末１と音声認識システム２と音声認識用辞書登録システム３とは、ＬＡＮやインターネット等の通信ネットワークを介して相互に接続されている。

なお、本実施形態では、音声認識システム２と音声認識用辞書登録システム３とが異なるシステムとして構成されている例を説明するが、本発明の適用形態はこれに限られない。例えば、辞書登録可能な音声認識サービスシステムとして、図１の音声認識システム２および音声認識用辞書登録システム３の各手段を全て備えるように構成されていてもよい。

図１に示されるように、モバイル端末１は、音声入力手段１１、付加情報取得手段１２、データ送信手段１３、認識結果表示手段１４および認識結果修正手段１５を備えている。モバイル端末１は、具体的には、携帯電話機やスマートフォン、ノート型パーソナルコンピュータ等の端末装置によって実現される。

音声入力手段１１は、マイクロフォン等によって実現され、モバイル端末１に音声を入力する機能を備えている。

付加情報取得手段１２は、音声入力手段１１が入力する音声に関連する付加情報として、モバイル端末１の位置情報や端末ログイン情報、仕事のフェーズ情報などを取得する機能を備えている。付加情報取得手段１２は、例えば、ＧＰＳ衛星からからＧＰＳ信号を受信することによって位置情報を取得する。また、付加情報取得手段１２は、例えば、ユーザがモバイル端末の入力装置を操作することによって入力された端末ログイン情報や仕事のフェーズ情報などの付加情報を取得する。

データ送信手段１３は、音声入力手段１１が入力した音声データや、付加情報取得手段１２が取得した付加情報、認識結果修正手段１５が修正した認識結果情報を、ネットワークを介して、音声認識システム２又は音声認識用辞書登録システム３に送信する機能を備えている。データ送信手段１３は、例えば、プログラムに従って動作するモバイル端末１のネットワークインタフェース部などによって実現される。

認識結果表示手段１４は、音声認識システム２から受信した認識結果情報を表示する機能を備えている。認識結果表示手段１４は、例えば、ディスプレイ装置などの表示装置によって実現される。

認識結果修正手段１５は、音声認識システム２から受信した認識結果情報の誤りを修正する機能を備えている。認識結果修正手段１５は、例えば、ユーザの入力操作に従って、認識結果情報の誤りを修正する。認識結果修正手段１５は、具体的には、プログラムに従って動作するモバイル端末１のＣＰＵによって実現される。

また、図１に示されるように、音声認識システム２は、音声認識手段２１および音声認識用辞書記憶手段２２を含む。音声認識システム２は、具体的には、プログラムに従って動作するサーバ装置などの情報処理装置によって実現される。

音声認識手段２１は、モバイル端末１から受信した音声データを分析し、文字データに変換する機能を備えている。具体的には、音声認識手段２１は、音声データを分析し、分析結果に基づいて文字データを生成する。音声認識手段２１は、プログラムに従って動作する情報処理装置のＣＰＵによって実現される。

音声認識用辞書記憶手段２２は、音声認識処理で音声データを分析して文字データを生成する際に用いられる音声認識用辞書を記憶している。音声認識用辞書記憶手段２２は、具体的には、光ディスク装置や磁気ディスク装置などの記憶装置によって実現される。

また、図１に示されるように、音声認識用辞書登録システム３は、付加情報収集手段３０、辞書更新手段３１および認識結果データベース記憶手段３２を含む。音声認識用辞書登録システム３は、具体的には、プログラムに従って動作するサーバ装置などの情報処理装置によって実現される。

付加情報収集手段３０は、音声の認識結果に対応付けられた付加情報を収集する機能を備えている。付加情報収集手段３０は、例えば、モバイル端末１の付加情報取得手段１２によって取得され、音声認識用辞書登録システム３に送信された付加情報を受信する。付加情報収集手段３０は、例えば、プログラムに従って動作する情報処理装置のＣＰＵやネットワークインタフェース部などによって実現される。

辞書更新手段３１は、モバイル端末１で修正された認識結果情報に基づいて、音声認識用辞書記憶手段２２が記憶する音声認識用辞書を更新する機能を備えている。辞書更新手段３１は、例えば、プログラムに従って動作する情報処理装置のＣＰＵやネットワークインタフェース部などによって実現される。

認識結果データベース記憶手段３２は、音声認識用辞書の更新に用いられる認識結果情報が蓄積された認識結果データベースを記憶する。認識結果データベース記憶手段３２は、具体的には、光ディスク装置や磁気ディスク装置などの記憶装置によって実現される。

本実施形態では、音声認識手段２１は、モバイル端末１から受信した音声データを分析し、音声認識用辞書記憶手段２１が記憶する音声認識用辞書を参照して、音声と最も近い語彙を推定し文字に変換する。具体的には、音声認識手段２１は、音声データを分析し、音声認識用辞書を参照して、文字データ（すなわち、認識結果情報）を生成する。

音声認識手段２１が変換した文字データは、モバイル端末１に送信され、認識結果表示手段１４に表示される。そして、ユーザは表示された文字データを確認し、修正がある場合には入力装置を用いて修正操作を行う。すると、認識結果修正手段１５は、ユーザの修正操作に従って、認識結果情報の修正を行う。その後、認識結果修正手段１５によって修正された認識結果情報は、データ送信手段１３よって音声認識用辞書登録システム３に送信され、認識結果データベース記憶手段３２に蓄積される。

また、本実施形態では、音声認識用辞書登録システム３は、自動的に（例えば所定期間ごとに）又はユーザの手動操作によって、音声認識用辞書２２を更新する。

図２は、図１の音声認識システム２の音声認識手段２１および音声認識用辞書２２の構成例を示すブロック図である。図２に示すように、音声認識手段２１は、音声検出部２１１、音声分析部２１２および音声照合部２１３を含む。また、音声認識用辞書記憶手段２２は、音響モデル２２１、言語モデル２２２、ユーザ単語辞書２２３および追加登録辞書２２４を記憶している。

音声検出部２１１は、入力された音声データから音声と雑音とを切り分け、音声を含む区間を検出して、音声分析部２１２に出力する。音声検出部２１１は、例えば音声データのパワーを使う方法で音声の検出を行う。具体的には、音声検出部２１１は、音声データのパワーを逐次計算して、音声データのパワーがあらかじめ定められた閾値を一定時間連続して上回る時点を音声の開始時点と判定する。また、音声検出部２１１は、音声データのパワーがあらかじめ定められた閾値を一定時間連続して下回る時点を音声の終了時点と判定する。音声検出部２１１は、音声開始時点から音声終了時点までを音声として切り出し、音声分析部２１２に逐次出力する。

音声分析部２１２は、音声検出部２１１により切り出された音声の音響分析を行い、音声の特徴を表す音響的特徴を音声照合部２１３に出力する。音声分析部２１２は、例えばスペクトル分析などによって音響分析を行う。本実施形態で音声分析部２１２によって出力される音響的特徴は、具体的には、後述する音声照合部２１３において候補としての単語列を検出できる特徴を示す情報である。音声分析部２１２は、音響的特徴として、例えば、ケプストラムやスペクトルピッチ、パワー等、音声データの音声波形に基づいて抽出される情報を音声照合部２１３に出力する。

音響モデル２２１は、日本語の音素毎の標準的なパタンを含む。音響モデル２１１は、例えば隠れマルコフモデルが適用される。

言語モデル２２２は、単語の出現確率がデータ化されたものであって、日本語の単語間や音素間の接続関係の規定や単語間の接続関係を規定する文法規則などを含む。本実施形態では、言語モデル２２２に含まれる単語の出現確率は、追加登録辞書２２４に基づいて、動的に変化する。

ユーザ辞書２２３は、ユーザが辞書に単語を登録する時に用いられる辞書である。ユーザ辞書２２３には、ユーザ自身が単語の表記、読みおよび品詞情報を登録することができる。なお、品詞情報は、あらかじめ定められた品詞の中から選択されて登録される。

追加登録辞書２２４は、言語モデル２２２に含まれる単語の出現確率を動的に変化させる際に用いられる。追加登録辞書２２４は、単語と付加情報とが対応付けられたデータを含む。本実施形態では、追加登録辞書２２４には、辞書更新手段３１によって、認識結果データベース記憶手段３２に蓄積されているモバイル端末１で修正された認識結果情報に基づいて、単語の読み、品詞情報および付加情報が登録されている。

図３は、言語モデル２２２内の単語に付加情報に基づいて出現確率の重み付けをするために用いられる追加単語辞書２２４の具体例を示す説明図である。図３に示すように、追加単語辞書には、単語の表記、読み、品詞および付加情報（担当情報、位置情報、仕事フェーズなど）が登録されている。図３に示す追加単語辞書２２４では、表記「検収」と「研修」とは、読みおよび品詞が同じであるが、付加情報に含まれる仕事ステータスが「５」と「６」とで異なっている。

本実施形態では、モバイル端末１は、入力された音声データにも付加情報を付与して音声認識システム２に送信する。そのため、音声認識システム２は、音声認識を行う際に、入力された音声データに付加された付加情報と追加単語辞書２２４の付加情報とが一致している単語について、言語モデル２２２中の該当する単語の出現確率に重み付けをして音声認識処理を行う。

例えば、音声データが「ケンシュウが必要です。」である場合を想定する。この場合、一般的な音声認識システムでは、「検収」と「研修」との使い分けは、言語モデル作成時の文例にどちらが多く入っているか（文例中の単語の出現確率）によって決定される。これに対して、本実施形態では、モバイル端末１は、音声データ「ケンシュウが必要です。」とともに付加情報（例えば仕事フェーズ：５）を音声認識システム２に送信する。すると、追加単語辞書２２４のうち「検収」と「研修」の読みおよび品詞が一致しているが、受信した付加情報と「検収」に対応付けられている付加情報とが一致しているため、言語モデル２２２中の「検収」の出現確率が上げられ、「研修」ではなく「検収」が選択されるようになる。

上述のように、本実施形態では、言語モデル２２２に含まれる単語の出現確率は動的に変化する。この出現確率の動的な変化は、例えば次のように実現される。

音声認識手段２１は、例えば、言語モデル２２２における単語の出現確率に重み付けを行う重み付け手段（図示せず）を備える。重み付け手段は、音声認識を行う際に、追加単語辞書２２４を参照し、受信した音声データと付加情報とに基づいて、読み、品詞および付加情報が一致する単語を選択する。そして、重み付け手段は、選択した単語について、言語モデル２２２における単語の出現確率に重み付けし、出現確率を上げる。

なお、上記の例に限らず、音声認識手段２１は、追加単語辞書２２４を参照し、受信した音声データと付加情報とに基づいて単語を選択する際に、複数の付加情報のうちのいずれかを優先するようにしてもよい。例えば、あらかじめ付加情報の優先順位を定めておき、音声認識手段２１は、読みおよび品詞が一致する場合には、複数の付加情報（例えば、位置情報や仕事フェースなど）のうち、優先順位が高い付加情報（仕事フェーズ）が一致するものを優先する。

また、例えば、音声認識手段２１は、複数の付加情報が一致する場合には、一致したものの合計をスコア等として求めて、最もスコアが高いものを優先して音声認識結果を求める際に用いるようにしてもよい。

次に、音声認識システムと音声認識用辞書登録システムとが適用された音声認識サービスシステムの動作を説明する。図４は、音声認識サービスシステムの動作手順を示すフローチャートである。

図４に示す例では、動作を開始するにあたって、ユーザがモバイル端末１の音声入力手段１１に音声を入力する。このとき、付加情報取得手段１２は、モバイル端末１の位置情報や端末ログイン情報、仕事のフェーズ情報などの付加情報を取得する。付加情報取得手段１２は、例えば、ユーザがモバイル端末の入力装置を操作することによって入力された端末ログイン情報や仕事のフェーズ情報などの付加情報を取得する。

音声入力手段１１が音声を入力し、付加情報取得手段１２が付加情報を取得すると、データ送信手段１３は、音声データおよび付加情報を、音声認識手段２１に送信する（ステップＡ１）。

音声認識手段２１は、音声データおよび付加情報を受信すると、音声認識用辞書２２を参照して、音声と音声認識用辞書のデータとを照合し、音声認識を行う（ステップＡ２）。上述のように、本実施形態では、音声認識手段２１は、音声認識を行う際に、入力された音声データに付加された付加情報と追加単語辞書２２４の付加情報とが一致している単語について、言語モデル２２２中の該当する単語の出現確率に重み付けをして音声認識処理を行う。

次いで、音声認識システム２は、ステップＡ２の音声認識による認識結果として、文字データをモバイル端末１に送信する。モバイル端末１は、音声認識システム２から受信した認識結果を認識結果表示手段１４に表示する。そして、モバイル端末１は、認識結果に修正が必要か否かを判断する（ステップＡ３）。例えば、ユーザが認識結果表示手段１４に表示された認識結果を確認し、修正が必要か否かを入力する操作を行うと、モバイル端末１は、ユーザの操作に従って、修正が必要か否かを判断する。

修正が必要であると判断された場合（ステップＡ３のＹＥＳ）、認識結果修正手段１５は、例えばユーザの修正操作に従って、認識結果の誤りを修正する（ステップＡ４）。

その後、データ送信手段１３は、認識結果修正手段１５が修正した認識結果と、ステップＡ１で入力した付加情報とを、音声認識用辞書登録システム３に送信する（ステップＡ５）。なお、ステップＡ３で修正が必要でないと判断された場合には（ステップＡ３のＮｏ）、データ送信手段１３は、音声認識システム２から受信した認識結果と、ステップＡ１で入力した付加情報とを、音声認識用辞書登録システム３に送信する（ステップＡ５）。そして、データ送信手段１３が送信した認識結果と付加情報とは、音声認識用辞書登録システム３の認識結果データベース記憶手段３２に蓄積される。例えば、音声認識用辞書登録システム３の付加情報収集手段３０は、データ送信手段１３が送信した認識結果と付加情報とを受信し、認識結果データベース記憶手段３２に蓄積する。

次いで、音声認識用辞書登録システム３の辞書更新手段３１は、認識結果データベース記憶手段３２に蓄積された認識結果と認識結果に付加された付加情報とに基づいて、追加登録辞書を作成する。そして、辞書更新手段３１は、音声認識システム２の音声認識用辞書２２を更新する（ステップＡ６）。具体的には、辞書更新手段３１が作成した追加登録辞書を音声認識システム２に送信すると、音声認識システム２は、受信した追加登録辞書で追加登録辞書２２４を更新する。

なお、例えば、音声認識用辞書登録システム３は、無制限に付加情報が付加されていくことを防止するため、使用頻度が低い付加情報は音声認識用辞書２２から随時削除するようにしてもよい。また、例えば、音声認識用辞書登録システム３は、逆に使用頻度が高いもののみを付加情報として登録していくようにしてもよい。

図５は、一般的な音声認識システムの構成を示すブロック図である。一般的な音声認識システムは、本発明のように、認識結果を用いて音声認識用辞書を更新する際に認識結果に付加情報を収集する手段を備えていない。したがって、図５に示されるような一般的な音声認識システムは、付加情報に基づいて単語の重み付けを行うことができず、同じような言い回しや音が似ている単語を含む文が登録されると、それぞれ区別されることなく出現確率が上がり、該当する単語が出やすくなってしまう。

次に、本発明の他の適用例を図面を参照して説明する。図６は、音声認識システムと音声認識用辞書登録システムとが適用された営業日報システムの構成の一例を示すブロック図である。図６に示す適用例では、図１に示される構成に加えて、営業日報システム４が含まれている。また、営業日報システム４は、日報作成手段４１および日報データベース記憶手段４２を含む。

図６に示す適用例では、ユーザがモバイル端末１に日報データを入力すると（例えば、図４に示すように音声を入力し、音声認識を行うことによって日報データを入力する）、入力された日報データは、営業日報システム４に送信され、日報データベース４２に蓄積される。そして、日報データベース４２に蓄積された日報データは、認識結果データベース３２に登録され、音声認識用辞書２２を作成・更新する際に用いられる。

音声認識用辞書２２を作成・更新する具体例を、図７に示される日報データベースに含まれる日報データの一例を参照して説明する。営業日報システム４は、図７に示す日報データベースから、備考欄に含まれるデータを音声認識結果情報として抽出する。また、営業日報システム４は、訪問先やフェーズ、報告者などの情報を付加情報として抽出する。そして、営業日報システム４は、抽出した音声認識結果情報と付加情報とを音声認識用辞書登録システム３の付加情報収集手段３０に送信する。すると、付加情報収集手段３０は、受信した音声認識結果情報と付加情報とを認識結果データベース３２に登録する。これらの処理は、自動的に又はユーザの手動操作に従って行われる。その後、図４のステップＡ６と同様に、音声認識用辞書登録システム３の辞書更新手段３１は、認識結果データベース記憶手段３２に蓄積された認識結果と認識結果に付加された付加情報とに基づいて、追加登録辞書を作成する。そして、辞書更新手段３１は、音声認識システム２の音声認識用辞書２２を更新する。

以上に説明したように、本発明による音声認識用辞書登録システムは、モバイル端末を活用して営業日報等を作成するシステム等において、単語や文章を音声認識用の辞書に登録する際に、その単語を使ったユーザの情報や使われた日時情報、位置情報、商談情報などを付加情報として登録する。また、本発明による音声認識システムは、音声認識を行う際に、それら付加情報を考慮した単語の選択をするため、音声認識システムは、適切な音声認識結果を提示することができる。

したがって、音声認識用辞書登録システムは、複数のユーザが音声認識用の辞書を共同でメンテナンスする場合でも、個々のユーザにあった単語が選択されるような音声認識用の辞書を作成することができる。また、音声認識システムは、音声入力時の状況（顧客や商談フェーズなど）を考慮して異なる単語を選択し、音声認識の精度を向上させることができる。

次に、本発明による音声認識サービスシステムの最小構成を説明する。図８は、音声認識サービスシステムの最小の構成例を示すブロック図である。図８に示されるように、音声認識サービスシステムは、最小の構成要素として、付加情報収集手段３０と、辞書更新手段３１と、音声認識手段２１とを含む。

図１０に示す最小構成の音声認識サービスシステムでは、付加情報収集手段３０は、入力された音声に関連する付加情報を収集する。また、辞書更新手段３１は、音声認識による音声の認識結果と付加情報収集手段３０が収集した付加情報とに基づいて、音声認識の際に用いられる音声認識用辞書を更新する。そして、音声認識手段２１は、音声に対応付けられた付加情報と音声認識用辞書とに基づいて、該音声の音声認識を行う。

したがって、最小構成の音声認識サービスシステムによれば、複数のユーザで共通の言語モデルを使用する構成であっても、個々のユーザに適した音声認識を行うことができ、かつ音声入力時の状況を考慮して音声認識の精度を向上させることができる。

なお、本実施形態では、以下の（１）〜（５）に示すような音声認識サービスシステムの特徴的構成が示されている。

（１）音声認識サービスシステム（例えば、図１に示される音声認識システム２および音声認識用辞書登録システム３によって実現される）は、入力された音声に関連する付加情報（例えば、位置情報や時間情報、ユーザ情報、顧客情報、仕事フェーズなど）を収集する付加情報収集手段（例えば、付加情報収集手段３０によって実現される）と、音声認識による音声の認識結果と付加情報収集手段が収集した付加情報とに基づいて、音声認識の際に用いられる音声認識用辞書（例えば、音声認識辞書記憶手段２２が記憶する音声認識辞書）を更新する辞書更新手段（例えば、辞書更新手段３１によって実現される）と、音声に対応付けられた付加情報と音声認識用辞書とに基づいて、該音声の音声認識を行う音声認識手段（例えば、音声認識手段２１によって実現される）とを備えたことを特徴とする。

（２）音声認識サービスシステムにおいて、辞書更新手段は、音声認識手段による音声の認識結果が修正された修正後の認識結果（例えば、認識結果修正手段１５によって修正された修正後の認識結果）と付加情報収集手段が収集した音声に関連する付加情報とに基づいて、音声認識用辞書を更新するように構成されていてもよい。

（３）音声認識サービスシステムにおいて、付加情報収集手段は、入力された音声に関連する複数種類の付加情報を収集し、音声認識手段は、付加情報収集手段が収集した複数種類の付加情報のうち、あらかじめ定められた優先順位にしたがって選択した付加情報と、音声認識用辞書とに基づいて、音声の音声認識を行うように構成されていてもよい。

（４）音声認識サービスシステムにおいて、音声認識用辞書は、単語に対応付けて付加情報を登録するための付加情報登録辞書（例えば、追加登録辞書２２４）と、言語モデル（例えば、言語モデル２２２）とを含み、辞書更新手段は、音声の認識結果と付加情報収集手段が収集した該音声に関連する付加情報とに基づいて、付加情報登録辞書を更新し、音声認識手段は、入力された音声に関連する付加情報と付加情報登録辞書および前記言語モデルとに基づいて、該入力された音声の音声認識を行うように構成されていてもよい。

（５）音声認識サービスシステムにおいて、音声認識手段は、入力された音声に関連する付加情報と付加情報登録辞書とに基づいて、言語モデルに含まれる単語の出現確率を更新し（例えば、重み付け手段が処理を実行することによって実現される）、該入力された音声の音声認識を行うように構成されていてもよい。

本発明は、メール文などの文字入力支援、コールセンターでの顧客とオペレータとの会話認識、音声認識による議事録作成など、話題が人や時間、場所によりある程度特定できる領域において、音声認識やテキスト入力支援、コンテンツ配信などを行うシステムに適用可能である。

１モバイル端末
１１音声入力手段
１２付加情報取得手段
１３データ送信手段
１４認識結果表示手段
１５認識結果修正手段
２音声認識システム
２１音声認識手段
２１１音声検出部
２１２音声分析部
２１３音声照合部
２２音声認識用辞書記憶手段
２２１音響モデル
２２２言語モデル
２２３ユーザ単語辞書
２２４追加登録辞書
３音声認識用辞書登録システム
３０付加情報収集手段
３１辞書更新手段
３２認識結果データベース記憶手段

Claims

入力された音声に関連する付加情報を収集する付加情報収集手段と、
音声認識による前記音声の認識結果と前記付加情報収集手段が収集した前記付加情報とに基づいて、音声認識の際に用いられる音声認識用辞書を更新する辞書更新手段と、
音声に対応付けられた付加情報と前記音声認識用辞書とに基づいて、該音声の音声認識を行う音声認識手段とを備え、
前記音声認識用辞書は、単語に対応付けて付加情報を登録するための付加情報登録辞書と、言語モデルとを含み、
前記辞書更新手段は、音声の認識結果と前記付加情報収集手段が収集した該音声に関連する付加情報とに基づいて、前記付加情報登録辞書を更新し、
前記音声認識手段は、入力された音声に関連する付加情報と前記付加情報登録辞書の付加情報とが一致している単語について、前記言語モデルに含まれる該当する単語の出現確率に重み付けをして出現確率を上げ、該入力された音声の音声認識を行う
ことを特徴とする音声認識サービスシステム。
辞書更新手段は、音声認識手段による音声の認識結果が修正された修正後の認識結果と付加情報収集手段が収集した該音声に関連する付加情報とに基づいて、音声認識用辞書を更新する
請求項１記載の音声認識サービスシステム。
付加情報収集手段は、入力された音声に関連する複数種類の付加情報を収集し、
音声認識手段は、前記付加情報収集手段が収集した複数種類の付加情報のうち、あらかじめ定められた優先順位にしたがって選択した付加情報と、音声認識用辞書とに基づいて、前記音声の音声認識を行う
請求項１又は請求項２記載の音声認識サービスシステム。
入力された音声に関連する付加情報を収集するステップと、
音声認識による前記音声の認識結果と収集した前記付加情報とに基づいて、音声認識の際に用いられる音声認識用辞書であって、単語に対応付けて付加情報を登録するための付加情報登録辞書と、言語モデルとを含む音声認識用辞書を更新するステップと、
音声に対応付けられた付加情報と前記音声認識用辞書とに基づいて、該音声の音声認識を行うステップと、を有し、
前記音声認識用辞書を更新するステップでは、音声の認識結果と収集した該音声に関連する付加情報とに基づいて、前記付加情報登録辞書を更新し、
前記音声認識を行うステップでは、入力された音声に関連する付加情報と前記付加情報登録辞書の付加情報とが一致している単語について、前記言語モデルに含まれる該当する単語の出現確率に重み付けをして出現確率を上げ、該入力された音声の音声認識を行う
ことを特徴とする音声認識サービス方法。
コンピュータに、
入力された音声に関連する付加情報を収集する付加情報収集処理と、
音声認識による前記音声の認識結果と前記付加情報とに基づいて、音声認識の際に用いられる音声認識用辞書であって、単語に対応付けて付加情報を登録するための付加情報登録辞書と、言語モデルとを含む音声認識用辞書を更新する辞書更新処理と、
音声に対応付けられた付加情報と前記音声認識用辞書とに基づいて、該音声の音声認識を行う音声認識処理とを実行させ、
前記辞書更新処理で、音声の認識結果と前記付加情報収集処理で収集した該音声に関連する付加情報とに基づいて、前記付加情報登録辞書を更新させ、
前記音声認識処理で、入力された音声に関連する付加情報と前記付加情報登録辞書の付加情報とが一致している単語について、前記言語モデルに含まれる該当する単語の出現確率に重み付けをして出現確率を上げ、該入力された音声の音声認識を行わせる
ための音声認識サービスプログラム。