JP5370335B2

JP5370335B2 - 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム

Info

Publication number: JP5370335B2
Application number: JP2010239928A
Authority: JP
Inventors: 貴博吉村
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2010-10-26
Filing date: 2010-10-26
Publication date: 2013-12-18
Anticipated expiration: 2030-10-26
Also published as: JP2012093508A

Description

本発明は、ある場所が音声認識に適した場所か否かの情報を提供することで利用者の音声認識を支援する音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラムに関する。

コールセンタなどでは問い合わせによる応対内容である通話を音声認識し、その結果のテキストを活用してＣＳ向上策の検討などに役立てている。近年、携帯電話機・スマートフォンなど携帯機器が広がってきたこともあり、携帯機器に話した音声を音声認識して活用する流れが生まれてきている。例えば、外回りの営業員が商談後に商談内容を携帯機器に話し、音声認識したテキストをネットワーク経由でサーバに保存しておいて帰社後の日報作成の効率化につなげるなどである。

しかし、コールセンタのような屋内とちがい、携帯機器の主な利用場である屋外では、場所によってはたえず騒音が発生している場所もあり、このような場所で話した音声には雑音が混入されて音声認識の結果に悪影響がでる、すなわち誤りが大きくなるという課題があった。なお、雑音の混入は屋外に限らず、例えば、屋内であってもコールセンタのように予め録音することを想定しているような場所は少なく、特にこれまで行ったことのない場所では、その場所が音声認識に適しているか否かがわからないために、その場所で残した音声に予想以上の雑音が混入されて音声認識の結果に悪影響がでるという課題があった。

対策の一つに、携帯機器内に雑音を除去する装置を物理的にいれこむ手法（例えば、特許文献１）がある。

特開平０９−２５２２６８号公報

しかし、特許文献１に記載されているような手法は、全ての携帯機器に組み込まれているわけではなく汎用性が低かった。

そこで、本発明は、利用者が外出先等で音声を入力して音声認識を行う場合においてその場所で入力された音声の音声認識結果の誤りを低減することができる音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラムを提供することを目的とする。

本発明による音声認識支援システムは、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて記憶する記憶手段と、記憶手段に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えたことを特徴とする。

また、本発明による音声認識支援装置は、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて記憶する記憶手段と、記憶手段に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えたことを特徴とする。

また、本発明による利用者端末は、認識対象の音声を入力する場所とされる場所情報が入力された場合に、場所情報を所定のサーバ装置に送信して、場所情報と対応づけられている場所についての音声認識結果の精度を示す情報を受信する場所認識結果精度情報受信手段と、場所情報と、場所認識結果精度情報受信手段が受信した場所についての音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えたことを特徴とする。

また、利用者端末は、認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された音声に対する音声認識結果の精度を示す情報を収集する音声認識結果精度情報収集手段と、場所情報と、音声認識結果精度情報収集手段によって収集された音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えていてもよい。

また、本発明による音声認識支援方法は、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶しておき、記憶装置に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力することを特徴とする。

また、本発明による音声認識支援プログラムは、コンピュータに、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶させる記憶処理、および認識対象の音声を入力する場所とされる場所情報が指定された場合に、記憶装置に記憶されている指定された場所についての音声認識結果の精度を示す情報を出力する場所認識結果精度情報出力処理実行させることを特徴とする。

また、音声認識支援プログラムは、コンピュータに、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶させる記憶処理、および記憶装置に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理を実行させてもよい。

また、音声認識支援プログラムは、コンピュータに、認識対象の音声を入力する場所とされる場所情報が入力された場合に、場所情報を所定のサーバ装置に送信して、場所情報と対応づけられている場所についての音声認識結果の精度を示す情報を受信する受信処理、および場所情報と、受信した場所についての音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理を実行させてもよい。

また、音声認識支援プログラムは、コンピュータに、認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された音声に対する音声認識結果の精度を示す情報を収集する収集処理、および場所情報と、収集された音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理実行させてもよい。

本発明によれば、利用者が外出先等で音声を入力して音声認識を行う場合においてその場所で入力された音声の音声認識結果の誤りを低減することができる。

音声認識支援システムの構成例を示すブロック図である。音声認識支援サーバの構成例を示すブロック図である。利用者端末の構成例を示すブロック図である。音声認識処理の処理フローの一例を示すフローチャートである。認識結果テキスト表示処理の処理フローの一例を示すフローチャートである。認識結果テキスト修正処理の処理フローの一例を示すフローチャートである。音声認識適合スコア計算処理の処理フローの一例を示すフローチャートである。音声認識適合場所判断処理の処理フローの一例を示すフローチャートである。最寄最適場所提示処理の処理フローの一例を示すフローチャートである。利用者ＤＢ１９が保持する利用者テーブルの一例を示す説明図である。音声認識結果ＤＢ１７が保持する音声認識結果テーブルの一例を示す説明図である。音声認識適合場所ＤＢ１８が保持する認識場所テーブルの一例を示す説明図である。音声認識結果ＤＢ１７が保持する認識結果修正履歴テーブルの一例を示す説明図である。（ａ）は認識結果テキスト一覧ページの一例を示す説明図であり、（ｂ）は認識結果テキスト修正ページの一例を示す説明図である。音声認識適合スコア計算処理の各ステップの具体例を示す説明図である。本発明の概要を示すブロック図である。本発明による音声認識支援システム５００の他の構成例を示すブロック図である。

実施形態１．
以下、本発明の実施形態を図面を参照して説明する。まず、本実施形態について概要を説明する。本実施形態は、利用者が音声を残そうとしている場所、すなわち認識対象の音声が入力（録音）される場所が音声認識に適した場所か否かの情報を提供する。さらに、認識対象の音声が入力される場所が音声認識に適していないと判定した場合には、最寄りの適した場所の情報を提供する。このような情報提供を行うことによって、最寄りの適した場所への移動等を促すことができ、結果として雑音の混入を防ぎ音声認識結果の誤りを低減させることができる。なお、音声認識に適した場所とは、その場所で入力された音声に対して音声認識を行った場合に、高い精度で音声認識結果が得られる場所をいう。なお、高い精度で音声認識結果が得られるとは、例えば、話した音声が正確なテキストに変換されて出力されることである。

例えば、外回りをしている営業員が外で音声を入力してその音声に対して音声認識処理を行う場合を想定する。音声認識が誤る原因としては、話した言葉が辞書に存在しているかどうかやクリアな音かどうかなどがあるが、仮に雑音が混入していないクリアな音かどうかが音声認識の精度に大きく影響を与えると仮定すると、当然雑音が混入しない環境ほど音声認識の誤りは少ない。すなわち、音声認識処理の際に推定された雑音レベルや、利用者が音声認識結果に対して行った修正量が多いほど、音声認識に適していない場所で音声を残したと考えることができる。

図１は、本実施形態の音声認識支援システムの構成例を示すブロック図である。図１に示すように、本実施形態の音声認識支援システムは、音声認識支援サーバ１００と、１つ以上の利用者端末（本例では、利用者端末３０１、３０２、３０３）とを備える。なお、音声認識支援サーバ１００と各利用者端末とは、それぞれネットワーク２００を介して接続されているものとする。

また、図２は、音声認識支援サーバ１００の構成例を示すブロック図である。図２に示すように、音声認識支援サーバ１００は、音声認識部１１と、認識結果テキスト表示部１２と、認識結果テキスト修正部１３と、音声認識適合スコア計算部１４と、音声認識適合場所判断部１５と、最寄最適場所提示部１６と、音声認識結果データベース（ＤＢ）１７と、音声認識適合場所データベース（ＤＢ）１８と、利用者データベース（ＤＢ）１９とを備える。

音声認識部１１は、利用者端末から音声データを受け取り、音声認識を実行する。認識結果テキスト表示部１２は、音声認識した結果のテキストを利用者端末に表示させる。認識結果テキスト修正部１３は、音声認識した結果のテキストを修正する。

音声認識適合スコア計算部１４は、音声を入力した場所に対応づけてその場所の音声認識への適合度を計算する。本実施形態では、音声認識適合スコア計算部１４は、その場所の音声認識への適合性の度合い（適合度）を示す音声認識適合スコアを算出する。

音声認識適合場所判断部１５は、利用者が音声を入力（録音）しようとしている場所に対応づけられた音声認識適合スコアから、その場所が音声認識に適しているかどうか、より具体的には音声入力場所として適しているかどうかを判断する。最寄最適場所提示部１６は、判断の結果、その場所の最寄りで音声認識に最適な場所を提示する。

音声認識結果ＤＢ１７は、音声認識結果データを保存する。音声認識結果ＤＢ１７は、例えば、本システムの利用者が様々な場所で入力した音声に対して行った音声認識結果を、その音声認識結果を識別するための情報と対応づけて保持してもよい。また、音声認識結果ＤＢ１７は、音声認識結果の情報と併せて、利用者による音声認識結果テキストの修正内容を示す情報を保持する。

音声認識適合場所ＤＢ１８は、音声を残した場所の音声認識への適合度を示す情報を保持する。音声認識適合場所ＤＢ１８は、例えば、場所を示す情報と、当該場所についての音声認識適合スコアとを対応づけて保持してもよい。

利用者ＤＢ１９は、利用者に関する情報である利用者情報を保持する。利用者ＤＢ１９は、例えば、利用者を識別するための情報と、その利用者についての音声認識結果の精度を示す情報とを対応づけて保持してもい。なお、利用者についての音声認識結果の精度を示す情報は、利用者の特徴による影響が反映されないように、場所の音声認識適合スコアを算出するために用いる情報である。

また、図３は、利用者端末３０１の構成例を示すブロック図である。図３に示すように、利用者端末３０１は、送受信部３１と、音声入力部３２と、表示部３３と、位置情報入力部３４とを備える。

送受信部３１は、ネットワーク２００を介して、音声認識支援サーバ１００との間で各種情報を送受信する。音声入力部３２は、音声認識対象とする音声（音声データ）を入力する。音声入力部３２は、マイクロフォンを備え、利用者の操作に応じてマイクロフォンが集音した音声データを入力する。表示部３３は、音声認識支援サーバ１００から受信した情報や、音声認識支援サーバ１００に送信する情報を利用者に入力させるための画面を表示する。位置情報入力部３４は、音声を入力した場所を示す位置情報や、適合場所判断を要求する場所の位置情報を入力する。位置情報入力部３４は、例えば、ＧＰＳ受信機を備え、音声を入力した際にＧＰＳ受信機が保持している緯度・経度情報を読み出すことによって音声を入力した場所を示す位置情報を入力してもよい。また、例えば、キーボードやマウス等の情報入力装置を介して利用者が指定（入力操作）した情報を入力してもよい。なお、適合場所判断を要求する場所の位置情報に限らず、音声を入力した場所を示す位置情報に、利用者が指定（入力操作）した情報を用いてもよい。

利用者端末は、例えば、プログラムに従って動作するＣＰＵからの制御指示に応じて、情報の送受信や表示、音声データの入力等を行う。なお、このプログラムは、予め記憶装置に記憶されているプログラムに限らず、ブラウザ等を用いてサーバにアクセスすることによってダウンロードされるプログラム等を含む。

また、図３では、利用者端末３０１の例を示したが、他の利用者端末（利用者端末３０２、３０３等）も同様でよい。なお、本システムの動作は、音声入力から音声認識までと、音声認識結果の確認および修正と、音声認識場所の適合性判断と、というようにいくつかのフェーズに分けることが可能である。従って、利用者の利用形態に応じて各フェーズを実行する利用者端末を分けるなど、別々の利用者端末を用いることも可能である。

また、本実施形態において、音声認識部１１、認識結果テキスト表示部１２、認識結果テキスト修正部１３、音声認識適合スコア計算部１４、音声認識適合場所判断部１５、最寄最適場所提示部１６は、例えば、音声認識支援サーバが備えるデータ処理装置によって実現される。また、音声認識結果ＤＢ１７、音声認識適合場所ＤＢ１８、利用者ＤＢ１９は、例えば、音声認識支援サーバが備えるメモリ、データベースシステムによって実現される。なお、データベースシステムには、要求に応じて、条件が合致するデータ群を一連のデータとして対応づけて出力する制御部を含む。

次に、本実施形態の動作について説明する。本実施形態では、大まかに次の処理フローを含む。
（１）音声認識を行った際に、場所情報と認識結果をシステムに蓄積する。
（２）音声認識結果が修正された際に、修正内容をシステムに蓄積する。
（３）認識結果の修正量と個人の平均修正量との差から、その場所が音声認識に適した場所かどうかのスコアを計算する。
（４）利用者がスコアが低い場所で認識対象となる音声を入力しようとしている場合は、その場所が音声認識に適していないことを提示し、最寄りのスコアが高い場所を提示する。

このように、ネットワークを介して不特定多数の利用者に利用させることで、幅広い利用者の音声認識結果を利用履歴として日々蓄積し、それを元にスコアの精度改善を行う。これにより、ある利用者が行ったことがない場所でもその場所が音声認識に適しているか否かの情報を得ることができる。

次に、図４〜図９を参照して各処理フローについてより詳細に説明する。まず、図４を参照して、利用者端末を用いて入力した音声を音声認識する処理について説明する。図４は、音声認識処理の処理フローの一例を示すフローチャートである。なお、本例では、利用者端末として携帯電話機を想定している。

図４に示すように、はじめに、利用者端末を用いて音声を録音する（Ｓ１００１）。本例では、システムが保持する特定の電話番号に対して携帯電話機から発信し音声を話すことで、その音声がシステムに録音されることを想定している。利用者端末は、例えば、利用者からの操作に応じて、音声を入力し、入力された音声（音声データ）を音声認識支援サーバ１００の音声認識部１１に出力（送信）する。なお、音声録音方法としてはこの限りではない。

次に、認識対象の音声を受信すると、音声認識部１１は、音声を入力した場所の緯度・経度情報、日時および携帯電話番号（利用者を識別できる情報）を取得する（Ｓ１００２）。本例では、利用者端末に内蔵されたＧＰＳ受信機が保持している緯度・経度情報をネットワークを介してシステム（より具体的には、音声認識部１１）が取得することを想定している。また、日時および携帯電話番号は音声録音時に取得することを想定している。なお、システム側から取得する方法に限らず、利用者端末が音声の録音を開始するタイミングで自発的に読み出し、音声データを送信する際に併せて現在位置の緯度・経度情報、現在日時および携帯電話番号を送信するようにしてもよい。

また、音声認識部１１は、取得した携帯電話番号に一致する電話番号をもつ利用者ＩＤを、利用者ＤＢ１９の利用者テーブル（図１０参照。）から取得する（Ｓ１００３）。

図１０は、利用者ＤＢ１９が保持する利用者テーブルの一例を示す説明図である。図１０に示す利用者テーブルは、利用者情報を登録するテーブルであって、利用者ＩＤと、利用者の姓名と、電話番号と、音声認識スコア（平均）と、登録回数とを含む。

利用者ＩＤは、当該システムにおいて利用者を識別するための識別子である。また、音声認識スコアは、その利用者についての音声認識結果の精度を示す情報であって、本実施形態では、音声認識適合スコア計算部１４が利用者別に算出する音声認識スコア（平均）を登録する。登録回数は、その利用者が本システムに音声認識結果を登録した回数である。なお、利用者ＩＤ、姓名、電話番号は、本システムが当該処理を開始する前までに予め登録されているものとする。また、利用者別音声認識スコアの登録および登録回数の更新方法については後述する。

次に、音声認識部１１は、Ｓ１００１で録音した音声に対して音声認識を実行する（Ｓ１００４）。本例では、音声認識方法として、特開２００２−０９９２９６号公報に記載されているような公知の音声認識装置をシステムで搭載することを想定している。

音声認識が完了すると、音声認識部１１は、利用者ＩＤ、Ｓ１００４で音声認識して得られた認識結果のテキスト、緯度・経度、日時を音声認識結果ＤＢ１７の音声認識結果テーブル（図１１参照。）に登録する（Ｓ１００５）。

図１１は、音声認識結果ＤＢ１７が保持する音声認識結果テーブルの一例を示す説明図である。図１１に示す音声認識結果テーブルは、音声認識結果データを登録するテーブルであって、認識結果ＩＤと、利用者ＩＤと、認識結果テキストと、日時情報と、場所情報とを含む。

認識結果ＩＤは、当該システムにおいて１件分の認識結果を識別するための識別子である。利用者ＩＤは、当該認識結果を得た音声を入力した利用者を識別するための情報である。本例では、利用者テーブルの利用者ＩＤが登録される。認識結果テキストは、音声認識して得られた認識結果を示すテキストである。日時情報は、当該認識結果を得た音声が入力（録音）された日時を示す情報である。場所情報は、当該認識結果を得た音声が入力（録音）された場所を示す情報（本例では、緯度経度）である。

例えば、利用者「鈴木和夫」が、携帯電話機を用いて、２０１０年７月１２日１５時１０分に緯度「３５．６５１３８６」、経度「１３９．７５４１８３」の場所で残した音声を音声認識した場合、図１１のレコード１１１のようなデータが登録され、認識結果ＩＤ（本例では、３４）が採番されて記憶される。

次に、音声認識処理部１１は、今回音声認識を行った音声が入力された場所（緯度・経度）と一致する場所情報が音声認識適合場所ＤＢ１８の認識場所テーブル（図１２参照。）に存在するか否かを判定する（Ｓ１００６）。存在しない場合は（Ｓ１００６のＮｏ）、今回の緯度・経度を新たな音声認識場所として、音声認識適合場所ＤＢ１８の認識場所テーブルに登録する（Ｓ１００７）。そして、音声認識処理を終了する。一方、存在する場合は（Ｓ１００６のＹｅｓ）、そのまま処理を終了する。

図１２は、音声認識適合場所ＤＢ１８が保持する認識場所テーブルの一例を示す説明図である。図１２に示す認識場所テーブルは、音声認識場所毎にその場所の音声認識適合スコアを登録するテーブルであって、認識場所ＩＤと、場所情報と、音声認識適合スコアと、登録回数とを含む。

認識場所ＩＤは、当該システムにおいて１つの認識場所を識別するための識別子である。場所情報は、当該場所を示す情報である。音声認識適合スコアは、その場所についての音声認識結果の精度を示す情報であって、本実施形態では、音声認識適合スコア計算部１４が算出した音声認識適合スコアを登録する。登録回数は、本システムに認識場所としてその場所が登録された回数である。なお、音声認識適合スコアおよび登録回数は、Ｓ１００７で音声認識部１１が新たな認識場所を登録する際には、空データ（音声認識スコア未登録、登録回数０回など）でよい。音声認識適合スコアの登録および登録回数の更新方法については後述する。

次に、図５を参照して、音声認識した結果テキストを利用者に対して表示する認識結果テキスト表示処理について説明する。図５は、認識結果テキスト表示処理の処理フローの一例を示すフローチャートである。本例では、パーソナルコンピュータなどの端末を利用者が保持していることを想定し、また端末内に搭載されたＷｅｂブラウザ向けの画面をシステムが作成し、その画面を利用して情報の表示を行うことを想定している。なお、表示する端末や方法はこの限りではない。また、利用者はＷｅｂブラウザで画面を参照する初回時に利用者ＩＤをシステムに送信し、個人認証がなされているものとする。

以下、利用者ＩＤ「１」の「鈴木和夫」が参照しているものとして説明する。ここでは、利用者端末は、利用者からの要求に応じて、システムが用意した所定のＷｅｂページにアクセスする。そこで、利用者ＩＤを入力すると、認識結果テキストの表示要求が利用者ＩＤとともに、音声認識支援サーバ１００の認識結果テキスト表示部１２に送信されるものとする。

図５に示すように、認識結果テキスト表示部１２は、認識結果テキストの表示要求を受信すると、音声認識結果ＤＢ１７の音声認識結果テーブル（図１１参照。）から、受け取った利用者ＩＤと一致する音声認識結果データ（より具体的には、認識結果テキスト）を取得する（Ｓ２００１）。そして、取得した認識結果テキストの一覧を要求元である利用者端末の画面に表示させる（Ｓ２００２）。

図１４（ａ）は、認識結果テキスト一覧ページの一例を示す説明図である。図１４（ａ）に示すように、その利用者が登録した音声に対する音声認識結果テキストを順に、認識結果ＩＤとともに表示してもよい。また、図１４（ａ）に示す例では、各音声認識結果テキストの表示領域に対して、その音声認識結果テキストの修正操作を開始する旨の指示を行う操作ボタン（修正ボタン）が設けられている。

利用者は、このような認識結果一覧の中から１件の認識結果を確認、編集する場合、図１４（ａ）にあるような修正ボタンを押下すればよい。この時、利用者端末は、その操作に応じて、修正の開始と認識結果ＩＤとを音声認識支援サーバ１００に送信する。本例では、音声認識支援サーバ１００には、認識結果ＩＤとして「３４」が送信される。

認識結果テキスト表示部１２では、受け取った認識結果ＩＤに一致する認識結果テキストを音声認識結果ＤＢ１７の音声認識結果テーブルから取得し（Ｓ２００３）、認識結果テキスト修正ページを表示する（Ｓ２００４）。

図１４（ｂ）は、認識結果テキスト修正ページの一例を示す説明図である。図１４（ｂ）に示すように、修正対象とされた認識結果テキストを認識結果ＩＤとともに表示してもよい。なお、認識結果テキスト修正ページにおける認識結果テキストは、利用者が編集可能なように表示されている。また、図１４（ｂ）に示す例では、その音声認識結果テキストの修正内容の確定を指示する操作ボタン（修正確定ボタン）が設けられている。

次に、図６を参照して、認識結果テキストを利用者が修正する認識結果テキスト修正について説明する。図６は、認識結果テキスト修正処理の処理フローの一例を示すフローチャートである。

今、利用者端末には、図５のＳ２００４によって認識結果テキスト修正ページが表示されているものとする（Ｓ３００１）。なお、修正の開始と認識結果ＩＤとを認識結果テキスト修正部１３が受け取り、認識結果テキスト修正処理において認識結果テキスト修正ページを表示してもよい。

利用者が認識結果テキストの誤りを修正して修正確定ボタンを押下すると、その旨が認識結果テキスト修正部１３に送信されるものとする。認識結果テキスト修正部１３は、修正確定を示すメッセージを受信すると、認識結果ＩＤ、修正された認識結果テキストを取得して、現在日時とともに音声認識結果ＤＢ１７の認識結果修正履歴テーブル（図１３参照。）に登録する（Ｓ３００２）。

図１３は、音声認識結果ＤＢ１７が保持する認識結果修正履歴テーブルの一例を示す説明図である。図１３に示す認識結果修正履歴テーブルは、利用者による音声認識結果テキストの修正内容を登録するテーブルであって、修正履歴ＩＤと、認識結果ＩＤと、（修正後の）認識結果テキストと、日時情報とを含む。

修正履歴ＩＤは、当該修正内容を識別するための識別子である。認識結果ＩＤは修正対象とされた認識結果テキストを識別するための識別子である。認識結果ＩＤは、認識結果テーブルの認識結果ＩＤが登録される。認識結果テキストは、利用者によって修正された後の認識結果テキストである。日時情報は、修正された日時を示す情報である。

例えば、図１４（ｂ）に示した内容に認識結果テキストを修正した場合、認識結果修正履歴テーブルには、図１３のレコード１３１のようなデータが登録され、修正履歴ＩＤ（本例では、１００）が採番されて記憶される。

次に、図７および図１５を参照して、音声を入力した場所の音声認識への適合度を示す音声認識適合スコアを計算する音声認識適合スコア計算処理について説明する。図７は、音声認識適合スコア計算処理の処理フローの一例を示すフローチャートである。また、図１５は、図７に示す各ステップの具体例を示す説明図である。

以下では、図１４に示すように、利用者ＩＤ「１」の「鈴木和夫」が、認識結果ＩＤ「３４」を修正した場合を例にあげて説明する。例えば、修正後の認識結果テキストが認識結果修正履歴テーブルに登録されると、認識結果テキスト修正部１３から音声認識適合スコア計算部１４にその旨が通知されるものとする。図７に示す例では、通知を受けた音声認識適合スコア計算部１４は、まず、修正された認識結果テキストの認識結果ＩＤに一致する認識結果テキスト（修正前の認識結果テキスト）と場所情報とを音声認識結果ＤＢ１７の音声認識結果テーブルから取得する（Ｓ４００１）。

次に、認識結果ＩＤに一致する修正結果テキストを音声認識結果ＤＢ１７の認識結果修正履歴テーブルから取得する（Ｓ４００２）。ここでは、修正前の音声認識テキストを読み出す。

次に、修正量として、認識結果テキストと修正結果テキストとを比較した際の異なる文字数を計数し、認識結果テキスト数に占める異なる文字数の割合を計算する（Ｓ４００３）。本例では、認識結果テキストの文字数が「４５」、認識結果テキストと修正結果テキスト中の異なる文字数（修正量）が「１４」であるため、認識結果テキスト数に占める異なる文字数の割合は「１４／４５=０．３１」となる（図１５のＳ４００３参照。）。本例では、ステップＳ４００３で算出する認識結果テキスト数に占める異なる文字数の割合を、当該音声認識結果についての音声認識の精度を示す音声認識スコアとして扱う。なお、本例の音声認識スコアは、異なる文字数の割合が大きいほど、すなわち音声認識の精度が低くなるほど値が大きくなる性質となっていることに注意が必要である。

次に、認識結果ＩＤに一致する利用者ＩＤを音声認識結果ＤＢ１７の音声認識結果テーブルから取得する（Ｓ４００４）。ここでは、当該音声認識結果を登録した利用者ＩＤを読み出す。

次に、利用者ＤＢ１８の利用者テーブル（図１０参照。）から利用者ＩＤに一致する音声認識スコア（平均）を取得し、Ｓ４００３で算出した今回の音声認識スコアとの差を計算する（Ｓ４００５）。ここでは、今回の音声認識結果の精度が、利用者の平均的な音声認識結果の精度とどれくらい異なるかを計算している。本例では、図１０のレコード１０１に示すように、音声認識スコア（平均）「０．２１」が取得され、差は「０．３１−０．２１=０．１」となる（図１５のＳ４００５参照。）。この値は、当該音声認識場所が、０．１スコアを悪化させる場所であったと判断されたことを意味している。

本実施形態では、ステップＳ４００５で求めた差を、音声認識適合スコアと呼ぶ。なお、ステップＳ４００５で求めた音声認識適合スコアは、厳密には今回の音声認識結果によるその場所の音声認識結果の精度を示す音声認識適合スコアである。なお、利用者テーブルから取得した音声認識スコア（平均）は、利用者がこれまでにさまざまな場所で音声認識した結果の精度を示す音声認識スコア（ここでは、音声認識テキストとその修正結果テキストの異なる文字数割合）を平均化した数値であり、この数値は、その利用者個人についの音声認識への適合度を示す指標となる。Ｓ４００５で算出する音声認識適合スコアは、今回ある場所で録音した音声に対して音声認識した結果の音声認識スコアと、その利用者の音声認識スコア（平均）との差であることから、この数値が０より大きい場合は、今回の場所は音声認識への適合度が平均よりも低いと考えることができる。

次に、Ｓ４００３で算出した今回の音声認識スコアを基に、その利用者の音声認識スコア（平均）を再計算し、利用者ＤＢ１０の利用者テーブルの音声認識スコア（平均）に登録する（Ｓ４００６）。今回の場合、これまでの音声認識スコア（平均）が「０．２１」、登録回数が「１５」であり、今回の音声認識スコアが「０．３１」であることから、登録回数を１つ増やして「（０．２１＊１５＋０．３１）／１６=０．２２（少数点以下３位で四捨五入）」と変化する（図１５のＳ４００６参照。）。

次に、音声認識適合場所ＤＢ１８の認識場所テーブル（図１２参照。）から、Ｓ４００１で取得した緯度・経度が一致する場所の認識場所ＩＤと音声認識適合スコア（平均）を取得する（Ｓ４００７）。ここでは、現時点での当該場所の音声認識適合スコア（平均）を読み出す。本例では、図１２のレコード１２１に示すように、認識場所ＩＤ「５」、音声認識適合スコア（平均）「０．１２」が取得される。

ここで、認識場所の音声認識適合スコア（平均）とは、様々な利用者がこの場所で音声認識した際の音声認識適合スコアの平均を算出した数値である。この数値は、その場所の音声認識への適合度を示す指標となり、この数値が大きいほど音声認識への適合度が低いとみなせる。なお、この値は、音声認識適合スコアと同様に、０より大きい場合は、システムの利用者の平均的な修正量よりも多い修正量が見込まれる場所であると考えることができる。一方、マイナスの値であれば、システムの利用者の平均的な修正量よりも少ない修正量で済む場所であると考えることができる。

次に、Ｓ４００５で算出した音声認識適合スコアを基に、その場所の音声認識適合スコア（平均）を再計算し、音声認識適合場所ＤＢ１８の認識場所テーブルの音声認識適合スコア（平均）に登録する（Ｓ４００８）。なお、平均を求める方法は、単純平均でもよいし、二乗平均等でもよい。今回の場合、その場所のこれまでの音声認識適合スコア（平均）が「０．１２」であり、登録回数が「３」であることから、登録回数を１つ増やして「（０．１２＊３+０．１）／４=０．１２（少数点以下３位で四捨五入）」と算出する。ここで、例えば、今回算出した音声認識適合スコアをその場所の音声認識適合スコア（平均）に加える際に重み付けを行ってもよい。例えば、今回の音声認識の条件だと音声入力場所として好ましくないことが予め分かっている場合には、低い重み係数を掛けて寄与度を下げてもよい。

次に、図８を参照して、利用者が携帯電話機を用いて音声を残そうとする際に、音声入力を行う場所が音声認識に適しているかどうかを判断する音声認識適合場所判断処理について説明する。図８は、音声認識適合場所判断処理の処理フローの一例を示すフローチャートである。

音声認識支援サーバ１００の音声認識適合場所判断部１５は、まず、利用者が音声を残そうとしている場所の緯度・経度を携帯電話機から取得する（Ｓ５００１）。取得方法は音声認識部１１で想定した方法と同様でよい。なお、場所情報は、現在位置を示す場所情報とは限らない。例えば、利用者端末を介して、これから音声を入力しようとしている場所を利用者に入力させてもよい。

次に、取得した緯度・経度が一致する場所の認識場所ＩＤを音声認識適合場所ＤＢ１８の認識場所テーブル（図１２参照。）から取得し（Ｓ５００２）、該当する認識場所ＩＤが存在するかどうか判定する（Ｓ５００３）。該当する認識場所ＩＤが存在しない場合は（Ｓ５００３のＮｏ）、音声認識適合スコアがまだ算出されていない新規な場所であるとして、そのまま音声を録音させて音声認識部１１に音声認識を実行させればよい。

以下では、図１２のレコード１２２で示す認識場所ＩＤが「７」の場所が一致したとして説明する。該当する認識場所ＩＤが存在する場合（Ｓ５００３のＹｅｓ）、音声認識適合場所判断部１５は、音声認識適合場所ＤＢ１８の認識場所テーブルから認識場所ＩＤが一致する場所の音声認識適合スコア（平均）を取得する（Ｓ５００４）。本例では、「０.４３」が取得される。

次に、取得した音声認識適合スコア（平均）が所定の閾値（Ｘ）以上の数値か否かを判定する（Ｓ５００５）。ここでＸとは０以上１以下の任意の数値であり、音声認識適合スコア（平均）がこの数値以上だと音声認識に適合した場所ではないとシステム管理者が判断する数値である。管理者が自由に設定・変更できるものとする。判定の結果、音声認識適合スコア（平均）が所定の閾値（Ｘ）以上である場合には（Ｓ５００５のＹｅｓ）、最寄最適場所提示処理に進む。本例では、Ｘが０.３と設定されていると仮定する。すると、音声認識適合スコア（平均）「０．４３」の方が大きいので、最寄最適場所提示処理に進む。一方、音声認識適合スコア（平均）の方が小さい場合は（Ｓ５００５のＮｏ）、そのまま音声を録音させて音声認識部１１に音声認識を実行させればよい。

次に、図９を参照して、利用者の最寄りで音声認識に最適な場所を提示する最寄最適場所提示処理について説明する。図９は、最寄最適場所提示処理の処理フローの一例を示すフローチャートである。

最寄最適場所提示処理では、最寄最適場所提示部１６が、音声認識適合場所判断処理のＳ５００５で取得した経度・緯度情報を基に、その場所から近く、かつ音声認識適合スコア（平均）がＸより低い場所を、音声認識適合場所ＤＢ１８の認識場所テーブルから検索し、最大Ｙ件取得する（Ｓ６００１）。ここでＹとは、１以上の任意の整数であり、システム管理者が自由に設定・変更できるものとする。本例では、Yが１と設定されていると仮定し、検索の結果、図１２のレコード１２３に示す認識場所ＩＤ「１２」の場所が近いと判定されたと仮定する。

条件に合致する場所の情報が取得されると、最寄最適場所提示部１６は、要求元の携帯電話機の画面に、その場所の情報を表示する。本例では、最寄の地図を表示し、その中にＳ６００１で取得した緯度・経度の場所をプロットして表示する（Ｓ６００２）。なお、条件に合致する場所の情報が存在しなかった場合には、その旨を通知するか、または取得した場所からの距離が所定の範囲内であって取得した場所よりも音声認識適合スコア（平均）が低い、すなわち適合性がより高い場所がある場合には、その場所の情報を提示するようにしてもよい。また、本例では、複数の場所のリストを地図上で示す場合を説明したが、それらから１つの場所を絞り込んで提示してもよい。例えば、所定範囲内で最も音声認識適合スコアがよい場所に絞り込んでもよいし、音声認識適合スコアが閾値を満足しているもののうち最も指定された場所からの距離が近い場所を絞り込んでもよい。

以上のように、本実施形態によれば、音声を残そうとしている場所の音声認識への適合度を元に、適合度が低い場合は、最寄りの適合度の高い場所を提示し移動を促すことで、音声認識結果の誤りを低減させることができる。

なぜなら、個々の音声認識結果の精度を示す情報（本例では、音声認識結果の修正量）を元に、音声認識場所の音声認識適合スコア（平均）を算出し、その音声認識適合スコア（平均）を判断基準に用いてその場所が音声認識に適しているか否かを判断するからである。なお、本実施形態によれば、音声を残そうとしている場所が屋外であるか屋内である否かに関わらず、また当該利用者が実際にその場所に行ったことがない場合であっても、その場所の音声認識への適否を判断することができる。

また、本実施形態では、個人の特徴による影響が反映されにくいように音声認識適合スコア（平均）を算出している。例えば、同じ文を複数人が話しても、人によって声の大きさ・発音・かつぜつなどが違うため、音声認識結果の良し悪しは異なる。このため、単純に音声認識テキストの修正量を拠り所として音声認識スコアを算出するだけでは、特定の場所についての適合性を正しく算出することは難しい。音声認識の良し悪しが場所に拠るものなのか、人に拠るものなのかの切り分けが出来ないからである。

本実施形態では、個人の過去の修正量の平均とその場所での修正量の差を算出し、その結果の値をその場所についての音声認識適合スコアの算出に利用するというように、個人毎の偏りを防ぐための処理を組み込んでいる。このため、より精度よく最寄りの音声認識に適した場所を提示することができる。

また、さまざま利用者の音声認識および認識結果の修正ログを活用して、音声認識場所の音声認識適合スコア（平均）の計算を日々繰り返すので、適合性判断の精度を向上させることができる。

なお、上記実施形態では、音声認識結果テーブルに音声認識結果を示す情報として、音声認識テキストを登録する例を示したが、音声認識結果テキストだけでなく、音声認識に影響を与える雑音レベルや、音声認識結果テキストの尤度など、音声認識の結果得られる音声認識結果の精度を示す情報を含んでいてもよい。

また、上記実施形態では、場所情報として緯度・経度を登録する例を示したが、緯度経度の他に、その場所がどのような場所であるかを示す情報を予め種別化した情報等、音声認識結果に影響を与えるその場所の特性を示す情報を含んでいてもよい。例えば、音声認識適合スコア計算部１４は、これら雑音レベルや尤度を場所毎に平均化して音声認識適合スコア（平均）として出力してもよい。そのような場合には、音声認識適合場所判断部１５は、出力された場所毎の雑音レベルや尤度の平均が閾値を満足しているか否かを判断して、音声認識に適しているか否かを判断するようにすればよい。なお、修正量の場合と同様、今回の雑音レベルや尤度と、その利用者の過去の雑音レベルや尤度の平均との差を利用して、当該音声の入力場所についての音声認識適合スコアを算出してもよい。

また、上記実施形態では、１つの場所とする単位を、緯度・経度が一致するか否かで判断する例を示したが、ある一定の基準（半径ｘｍ以内や階数、地図等によって示される敷地内等）に沿って同じ場所とされるような単位（そのような分類における場所の範囲）を用いることも可能である。そのような場合には、取得した場所情報によって示される場所が、認識場所テーブルに登録されている場所情報によって示される場所から一定の範囲内に属するか否かを判定すればよい。

また、上記実施形態では、場所についての音声認識結果の精度を示す情報として、音声認識適合スコアを算出する例を示したが、場所についての音声認識結果の精度を示す情報は音声認識適合スコアに限られない。例えば、各音声に対する音声認識スコアをその音声入力場所毎に分類して平均化したものであってもよい。また、例えば、その場所で入力された音声に対する音声認識処理等によって検出された当該音声に含まれる雑音レベルをそのまま用いることも可能である。そのような場合には、音声認識適合スコア計算部１４の処理の代わりに、音声認識処理によって検出された雑音レベルを、音声認識結果の精度を示す情報としてその音声が入力された場所の場所情報と対応づけて記憶させればよい。

上記実施形態では、音声入力を開始する際に、その場所が音声認識に適しているか否かを判定し、適していないと判定された場合に最寄の適合場所を提示する例を示したが、その場所が適しているか否かの情報の出力例はこれに限らない。例えば、音声入力場所の候補とする場所が指定されたときに、その場所についての音声認識結果の精度を示す情報（音声認識適合スコアや、雑音レベル）をそのまま出力することによって利用者側で適否を判断させることも可能である。また、例えば、その情報を基に段階的な評価値（大いに適している／中段階に適している／あまり適していない等）にして出力することも可能である。

また、上記実施形態では、音声認識支援サーバ１００が、音声認識部１１を備える形態を示したが、音声認識部１１は外部のシステムであってもよい。そのような場合には、音声認識部１１の代わりに、音声認識結果データをその外部のシステムから収集する収集部を備えていればよい。

また、上記実施形態では、音声認識支援サーバ１００側で、音声認識処理から最寄最適場所提示処理までの処理を実行する例を示したが、これらの処理を利用者端末単体で実行することも可能である。そのような場合には、利用者端末に音声認識支援装置または音声認識支援プログラムを組み込む形とすればよい。すなわち、利用者端末が、音声認識部１１、認識結果テキスト表示部１２、認識結果テキスト修正部１３、音声認識適合スコア計算部１４、音声認識適合場所判断部１５、最寄最適場所提示部１６とを備える構成であってもよい。また、音声認識部１１、認識結果テキスト表示部１２、認識結果テキスト修正部１３を省略して、本システムでは、各々の音声認識結果の精度を示す情報とその音声の情報として音声入力場所を含む情報とを収集する処理から実装することも可能である。また、これらのうちの一部をサーバ側で、他の部分を端末側に備えてもよい。

例えば、利用者端末側で、認識対象の音声を入力する場所とされる場所情報が入力された場合に、当該場所情報をサーバに送信して、当該場所情報と対応づけられている音声認識適合スコア等を受信し、受信した情報から、その場所が音声認識に適しているか否かの情報を出力するようにしてもよい。そのような場合には、利用者端末側で、サーバから指定された場所についての音声認識結果の精度を示す情報を受信する受信部と、音声認識適合場所判断部１５と、最寄最適場所提示部１６とを備えるようにすればよい。

また、例えば、利用者端末側で、認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された各音声に対する音声認識結果の精度を示す情報（雑音レベルや修正量など）を収集し、収集した情報から認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力するようにしてもよい。そのような場合には、利用者端末側で、入力された場所情報が示す場所で入力された各音声に対する音声認識結果の精度を示す情報を収集する収集部と、収集された情報からその場所についての音声認識結果の精度を示す情報を生成する生成部と、音声認識適合場所判断部１５と、最寄最適場所提示部１６とを備えるようにすればよい。なお、収集された情報からその場所についての音声認識結果の精度を示す情報を生成する生成部として音声認識適合スコア計算部１４を備えるようにしてもよい。

なお、ネットワークを介して音声認識結果データ等の収集を行わずに、当該利用者一人分のデータを記憶する音声認識結果ＤＢ１７、音声認識場所ＤＢ１８、利用者ＤＢ１９を利用者端末が備える構成であっても実現可能である。また、これらのうちの一部をサーバ側で、他の部分を端末側に備えてもよい。

また、上記実施形態では、音声認識結果の修正が確定したタイミングで、音声認識適合スコアを算出・更新し、その値を記憶手段に保持しておき、利用者から音声を残そうとしている場所の適合性の判断要求を受け付けたときに、記憶手段に保持されている音声認識適合スコアを確認し、適合しているか否かを判定を行う例を示したが、記憶手段に保持しておくデータの内容やスコア算出のタイミングはこの限りではない。例えば、データベースには各々の音声認識結果とその修正結果とを蓄積しておき、利用者からの判断要求時に指定された場所情報を基に必要な結果を読み出してその場所についての音声認識適合スコアを算出、適否判定を行うことも可能である。また、例えば、データベースには、変更確定時に算出した音声認識適合スコアとともに、その適否判定結果を示す情報を保持しておき、利用者からの判断要求時には、保持されている適否判定結果を読み込むだけで、その結果を基に応答または最寄最適場所を提示するようにすることも可能である。

実施形態２．
本実施形態では、音声認識した日時の情報を利用する。特定の場所の周囲雑音は、日時や時間によって変化する。例えば、同じ場所でも週末は騒がしいが平日は静か、夏場はうるさいがそれ以外の季節は静か等である。

本実施形態では、このような特徴を、蓄積しておいた音声入力日時情報を元に音声認識適合スコアに反映させる。すなわち、蓄積しておいた音声認識日時情報から、特定の場所の音声認識適合スコアの特徴を計算して、データとして保持しておくことによって、ユーザが音声認識した日時条件にあった音声認識スコアを返すようにする。

より具体的には、第１の実施形態の音声認識結果テーブルに、予め定めておいた日時の区分ごと（時間帯ごと、季節ごと、曜日ごと等）の音声認識スコアが登録できるよう音声認識スコア列を追加する。そして、音声認識スコアを音声認識結果テーブルに登録する際に、その音声が入力された日時情報に基づいて分類される区分の音声認識スコア列に登録する。同様に、認識場所テーブルには、予め定めておいた日時の区分ごとの音声認識適合スコアが登録できるようにする。例えば、日時と時間帯と音声認識適合スコアとを対応づけて保持する。また、音声認識適合スコアを求める際には、同一区分の音声認識スコアのみを用いて算出する。

例えば、時間帯ごとの音声認識適合スコアを計算するとする。例えば、時間帯を次のように定義しておく。深夜：０〜４時、早朝：４〜６時、午前中：８〜１２時、昼間：１２〜１６時、夕方：１６〜１９時、夜：１９〜２４時など。なお、季節や曜日なども任意で定義することでより詳細な情報提供が可能である。

まず、音声認識結果テーブルから特定の場所に該当する行の情報のみを取得する。該当行の時刻が上記のどの時間帯に合致するかを判定する。算出した音声認識適合スコアは、場所情報、日時情報、時間帯情報とともに、認識場所テーブルに登録する。このとき、場所情報と時間帯情報とが一致する音声認識適合スコア（平均）が既に登録されていれば、今回算出した音声認識適合スコアを加味して平均を再計算する。さらに、時間帯を考慮しない音声認識適合スコアも算出しておく。

音声認識適合場所判断処理では、認識場所テーブルの同一時間帯の音声認識適合スコア（平均）と、時間帯を考慮しない音声認識適合スコア（平均）すなわち第１の実施形態と同じ方法で求めた場所についての音声認識適合スコア（平均）とを比較し、前者の方が高い場合には、指定された時間帯ではその場所が認識に適していないと判断し、同一時間帯において音声認識適合スコアが低い最寄の場所を提示する。

なお、認識場所テーブルの同一時間帯の音声認識適合スコア（平均）と所定の閾値（Ｘ）とを比較して、適否判断を行うことも可能である。

以上のように、本実施形態によれば、より正確な情報提供を行うことができるので、利用者が外出先等で音声を入力して音声認識を行う場合においてその場所で入力された音声の音声認識結果の誤りをより低減させることができる。

次に、本発明の概要について説明する。図１６は、本発明の概要を示すブロック図である。図１６に示すように、本発明の音声認識支援システム５００は、記憶手段５０１と、音声認識場所適否情報出力手段５０２とを備える。

記憶手段５０１は、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて記憶する。記憶手段５０１は、上記実施形態では、認識場所適合ＤＢ１８として開示されている。

音声認識場所適否情報出力手段５０２は、記憶手段５０１に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する。

なお、ここで「出力」とは、１つの装置内における処理部単位でのメッセージ送信や、モジュール間でのデータの出力を含むものとする。また、記憶手段を介して他の手段に情報が渡る場合にはその記憶手段に書き込む場合も含むものとする。

また、音声認識支援システム５００は、ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として用いてもよい。例えば、記憶手段５０１は、ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として、場所情報と対応づけて記憶してもよい。

また、記憶手段５０１は、場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、場所についての音声認識結果の精度を示す情報を記憶し、音声認識場所適否情報出力手段５０２は、記憶手段５０１に指定された場所の場所情報と対応づけて記憶されている音声認識結果の精度を示す情報のうち現在の日時が分類される所定の区分に属する音声認識結果の精度を示す情報に基づいて、指定された場所が音声認識に適しているか否かの情報を出力してもよい。

また、音声認識場所適否情報出力手段は５０２、記憶手段５０１に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報を、指定された場所が音声認識に適した場所か否かの情報として出力してもよい。

また、音声認識場所適否情報出力手段５０２は、記憶手段５０１に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報によって示される音声認識結果の精度が所定の条件を満たしているか否かを判定し、判定の結果を、指定された場所が音声認識に適した場所か否かの情報として出力してもよい。

また、図１７は、本発明による音声認識支援システム５００の他の構成例を示すブロック図である。図１７に示すように、音声認識支援システム５００は、さらに、音声認識適合スコア算出手段５０３や、最寄適合場所提示手段５０４を備えていてもよい。

音声認識適合スコア算出手段５０３は、音声を入力した場所を示す場所情報と、音声に対する音声認識結果の精度を示す情報とに基づいて、場所情報が示す場所の音声認識への適合度を示す音声認識適合スコアを算出する。音声認識適合スコア算出手段５０３は、上記実施形態では、音声認識部適合スコア計算部１４として開示されている。

そのような場合には、音声認識適合スコア算出手段５０３によって算出された音声認識適合スコアを、場所についての音声認識結果の精度を示す情報として用いてもよい。例えば、記憶手段５０１は、音声認識適合スコア算出手段５０３によって算出された音声認識適合スコアを、該場所についての音声認識結果の精度を示す情報として、場所情報と対応づけて記憶してもよい。なお、ここで対応づける場所情報は、音声を入力した場所を示す場所情報と完全に一致している必要はない。例えば、ある一定の基準に沿って、音声を入力した場所と同じ場所とされるような場所情報を用いてもよい。

また、例えば、音声認識適合スコア算出手段５０３は、ある利用者が話した音声の音声認識結果に対して該利用者が行った修正量を当該音声認識結果の精度を示す情報とみなして、当該音声の入力場所についての音声認識適合スコアを算出してもよい。

また、音声認識適合スコア算出手段５０３は、ある利用者が話した音声の音声認識結果に対して該利用者が行った修正量と、該利用者の過去の修正量の平均との差を利用して、当該音声の入力場所についての音声認識適合スコアを算出してもよい。

また、音声認識適合スコア算出手段５０３は、利用者が話した音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該音声の音声認識結果の精度を示す情報とみなして、当該音声の入力場所についての音声認識適合スコアを算出してもよい。

また、音声認識適合スコア算出手段５０３は、音声が入力された日時情報に基づいて分類される所定の区分に分けて音声認識適合スコアを算出してもよい。記憶手段５０１は、場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、音声認識適合スコア算出手段５０３によって算出された音声認識適合スコアを記憶してもよい。そして、音声認識場所適否情報出力手段５０１は、現在の日時が分類される所定の区分に属する音声認識適合スコアに基づいて、指定された場所が音声認識に適しているか否かの情報を出力してもよい。

最寄適合場所提示手段５０４は、音声認識場所適否情報出力手段５０２によって出力された指定された場所が音声認識に適しているか否かの情報に基づいて、指定された場所が音声認識に適していないと判定した場合に、指定された場所に近い音声認識に適した場所の情報を出力する。最寄適合場所提示手段５０４は、上記実施形態では、最寄最適場所提示部１６として開示されている。

なお、最寄適合場所提示手段５０４は、指定された場所からの距離が所定の範囲内の場所であって、当該場所についての音声認識適合スコアが所定の条件を満たしている場所の情報を出力してもよい。

本発明は、不特定の場所で音声を入力して音声認識を行う可能性のあるシステムであれば好適に適用可能である。

１００音声認識支援サーバ
１１音声認識部
１２認識結果テキスト表示部
１３認識結果テキスト修正部
１４音声認識適合スコア計算部
１５音声認識適合場所判断部
１６最寄最適場所提示部
１７音声認識結果データベース
１８音声認識適合場所データベース
１９利用者データベース
２００ネットワーク
３０１、３０２、３０３利用者端末
３１送受信部
３２音声入力部
３３表示部
３４位置情報入力部
５００音声認識支援システム
５０１記憶手段
５０２音声認識場所適否情報出力手段
５０３音声認識適合スコア算出手段
５０４最寄適合場所提示手段

Claims

場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて記憶する記憶手段と、
前記記憶手段に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えた
ことを特徴とする音声認識支援システム。
音声を入力した場所を示す場所情報と、前記音声に対する音声認識結果の精度を示す情報とに基づいて、前記場所情報が示す場所の音声認識への適合度を示す音声認識適合スコアを算出する音声認識適合スコア算出手段を備え、
前記音声認識適合スコア算出手段によって算出された音声認識適合スコアを、前記場所についての音声認識結果の精度を示す情報として用いる
請求項１に記載の音声認識支援システム。
音声認識適合スコア算出手段は、ある利用者が話した音声の音声認識結果に対して前記利用者が行った修正量を前記音声に対する音声認識結果の精度を示す情報とみなして、前記音声の入力場所についての音声認識適合スコアを算出する
請求項２に記載の音声認識支援システム。
音声認識適合スコア算出手段は、ある利用者が話した音声の音声認識結果に対して前記利用者が行った修正量と、前記利用者の過去の修正量の平均との差を利用して、前記音声の入力場所についての音声認識適合スコアを算出する
請求項３に記載の音声認識支援システム。
音声認識適合スコア算出手段は、ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、当該音声に対する音声認識結果の精度を示す情報とみなして、当該音声の入力場所についての音声認識適合スコアを算出する
請求項２に記載の音声認識支援システム。
ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として用いる
請求項１に記載の音声認識支援システム。
記憶手段は、場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、前記場所についての音声認識結果の精度を示す情報を記憶し、
音声認識場所適否情報出力手段は、前記記憶手段に指定された場所の場所情報と対応づけて記憶されている音声認識結果の精度を示す情報のうち現在の日時が分類される前記所定の区分に属する音声認識結果の精度を示す情報に基づいて、指定された場所が音声認識に適しているか否かの情報を出力する
請求項１から請求項６のうちのいずれか１項に記載の音声認識支援システム。
音声認識場所適否情報出力手段は、記憶手段に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報を、指定された場所が音声認識に適した場所か否かの情報として出力する
請求項１から請求項７のうちのいずれか１項に記載の音声認識支援システム。
音声認識場所適否情報出力手段は、記憶手段に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報によって示される音声認識結果の精度が所定の条件を満たしているか否かを判定し、判定の結果を、指定された場所が音声認識に適した場所か否かの情報として出力する
請求項１から請求項８のうちのいずれか１項に記載の音声認識支援システム。
音声認識場所適否情報出力手段によって出力された前記指定された場所が音声認識に適しているか否かの情報に基づいて、指定された場所が音声認識に適していないと判定した場合に、指定された場所に近い音声認識に適した場所の情報を出力する最寄適合場所提示手段を備えた
請求項１から請求項９のうちのいずれか１項に記載の音声認識支援システム。
最寄適合場所提示手段は、指定された場所からの距離が所定の範囲内の場所であって、当該場所についての音声認識結果の精度が所定の条件を満たしている場所の情報を出力する
請求項１０に記載の音声認識支援システム。
場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて記憶する記憶手段と、
前記記憶手段に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えた
ことを特徴とする音声認識支援装置。
音声を入力した場所を示す場所情報と、前記音声に対する音声認識結果の精度を示す情報とに基づいて、前記場所情報が示す場所の音声認識への適合性を示す音声認識適合スコアを算出する音声認識適合スコア算出手段を備え、
前記音声認識適合スコア算出手段によって算出された音声認識適合スコアを、前記場所についての音声認識結果の精度を示す情報として用いる
請求項１２に記載の音声認識支援装置。
ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として用いる
請求項１２に記載の音声認識支援装置。
記憶手段は、場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、前記場所についての音声認識結果の精度を示す情報を記憶し、
音声認識場所適否情報出力手段は、前記記憶手段に指定された場所の場所情報と対応づけて記憶されている音声認識結果の精度を示す情報のうち現在の日時が分類される前記所定の区分に属する音声認識結果の精度を示す情報に基づいて、指定された場所が音声認識に適しているか否かの情報を出力する
請求項１２から請求項１４のうちのいずれか１項に記載の音声認識支援装置。
音声認識場所適否情報出力手段は、記憶手段に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報を、指定された場所が音声認識に適した場所か否かの情報として出力する
請求項１２から請求項１５のうちのいずれか１項に記載の音声認識支援装置。
音声認識場所適否情報出力手段によって出力された、指定された場所が音声認識に適しているか否かの情報に基づいて、前記指定された場所が音声認識に適していないと判定した場合に、前記指定された場所に近い音声認識に適した場所の情報を出力する最寄適合場所提示手段を備えた
請求項１２から請求項１６のうちのいずれか１項に記載の音声認識支援装置。
認識対象の音声を入力する場所とされる場所情報が入力された場合に、前記場所情報を所定のサーバ装置に送信して、前記場所情報と対応づけられている前記場所についての音声認識結果の精度を示す情報を受信する場所認識結果精度情報受信手段と、
前記場所情報と、前記場所認識結果精度情報受信手段が受信した前記場所についての音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えた
ことを特徴とする利用者端末。
認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された各音声に対する音声認識結果の精度を示す情報を収集する音声認識結果精度情報収集手段と、
前記音声認識結果精度情報収集手段によって収集された各音声に対する音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えた
ことを特徴とする利用者端末。
音声認識結果精度情報収集手段によって収集された音声認識結果の精度を示す情報とに基づいて、入力された場所情報が示す場所の音声認識への適合性を示す音声認識適合スコアを算出する音声認識適合スコア算出手段を備え、
音声認識場所適否情報出力手段は、前記音声認識適合スコア算出手段によって算出された音声認識適合スコアに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する
請求項１９に記載の利用者端末。
音声認識場所適否情報出力手段によって出力された、指定された場所が音声認識に適しているか否かの情報に基づいて、前記指定された場所が音声認識に適していないと判定した場合に、前記指定された場所に近い音声認識に適した場所の情報を出力する最寄適合場所提示手段を備えた
請求項１８から請求項２０のうちのいずれか１項に記載の利用者端末。
認識対象の音声を入力する場所とされる場所情報として、当該利用者端末の現在の位置情報を入力する位置情報入力手段を備えた
請求項１８から請求項２１のうちのいずれか１項に記載の利用者端末。
場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶しておき、
前記記憶装置に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する
ことを特徴とする音声認識支援方法。
音声を入力した場所を示す場所情報と、前記音声に対する音声認識結果の精度を示す情報とに基づいて、前記場所情報が示す場所の音声認識への適合度を示す音声認識適合スコアを算出し、
前記算出された音声認識適合スコアを前記場所についての音声認識結果の精度を示す情報として用いる
請求項２３に記載の音声認識支援方法。
ある利用者が話した音声の音声認識結果に対して前記利用者が行った修正量を前記音声に対する音声認識結果の精度を示す情報とみなして、前記音声の入力場所についての音声認識適合スコアを算出する
請求項２４に記載の音声認識支援方法。
ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、当該音声に対する音声認識結果の精度を示す情報とみなして、当該音声の入力場所についての音声認識適合スコアを算出する
請求項２４に記載の音声認識支援方法。
ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として用いる
請求項２３に記載の音声認識支援方法。
場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、前記場所についての音声認識結果の精度を示す情報を記憶しておき、
指定された場所の場所情報と対応づけて記憶されている音声認識結果の精度を示す情報のうち現在の日時が分類される前記所定の区分に属する音声認識結果の精度を示す情報に基づいて、指定された場所が音声認識に適しているか否かの情報を出力する
請求項２３から請求項２７のうちのいずれか１項に記載の音声認識支援方法。
所定の記憶装置に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報を、指定された場所が音声認識に適した場所か否かの情報として出力する
請求項２３から請求項２８のうちのいずれか１項に記載の音声認識支援方法。
所定の記憶装置に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報によって示される音声認識結果の精度が所定の条件を満たしているか否かを判定し、判定の結果を、指定された場所が音声認識に適した場所か否かの情報として出力する
請求項２３から請求項２８のうちのいずれか１項に記載の音声認識支援方法。
出力された前記指定された場所が音声認識に適しているか否かの情報に基づいて、指定された場所が音声認識に適していないと判定した場合に、指定された場所に近い音声認識に適した場所の情報を出力する
請求項２３から請求項３０のうちのいずれか１項に記載の音声認識支援方法。
コンピュータに、
場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶させる記憶処理、および
認識対象の音声を入力する場所とされる場所情報が指定された場合に、前記記憶装置に記憶されている前記指定された場所についての音声認識結果の精度を示す情報を出力する場所認識結果精度情報出力処理
を実行させる音声認識支援プログラム。
コンピュータに、
場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶させる記憶処理、および
前記記憶装置に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理
を実行させる音声認識支援プログラム。
コンピュータに、
認識対象の音声を入力する場所とされる場所情報が入力された場合に、前記場所情報を所定のサーバ装置に送信して、前記場所情報と対応づけられている前記場所についての音声認識結果の精度を示す情報を受信する受信処理、および
前記場所情報と、前記受信した前記場所についての音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理
を実行させる音声認識支援プログラム。
コンピュータに、
認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された音声に対する音声認識結果の精度を示す情報を収集する収集処理、および
前記場所情報と、前記収集された音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理
を実行させる音声認識支援プログラム。