JP5370335B2 - 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム - Google Patents

音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム Download PDF

Info

Publication number
JP5370335B2
JP5370335B2 JP2010239928A JP2010239928A JP5370335B2 JP 5370335 B2 JP5370335 B2 JP 5370335B2 JP 2010239928 A JP2010239928 A JP 2010239928A JP 2010239928 A JP2010239928 A JP 2010239928A JP 5370335 B2 JP5370335 B2 JP 5370335B2
Authority
JP
Japan
Prior art keywords
location
speech recognition
information
speech
place
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010239928A
Other languages
English (en)
Other versions
JP2012093508A (ja
Inventor
貴博 吉村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010239928A priority Critical patent/JP5370335B2/ja
Publication of JP2012093508A publication Critical patent/JP2012093508A/ja
Application granted granted Critical
Publication of JP5370335B2 publication Critical patent/JP5370335B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、ある場所が音声認識に適した場所か否かの情報を提供することで利用者の音声認識を支援する音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラムに関する。
コールセンタなどでは問い合わせによる応対内容である通話を音声認識し、その結果のテキストを活用してCS向上策の検討などに役立てている。近年、携帯電話機・スマートフォンなど携帯機器が広がってきたこともあり、携帯機器に話した音声を音声認識して活用する流れが生まれてきている。例えば、外回りの営業員が商談後に商談内容を携帯機器に話し、音声認識したテキストをネットワーク経由でサーバに保存しておいて帰社後の日報作成の効率化につなげるなどである。
しかし、コールセンタのような屋内とちがい、携帯機器の主な利用場である屋外では、場所によってはたえず騒音が発生している場所もあり、このような場所で話した音声には雑音が混入されて音声認識の結果に悪影響がでる、すなわち誤りが大きくなるという課題があった。なお、雑音の混入は屋外に限らず、例えば、屋内であってもコールセンタのように予め録音することを想定しているような場所は少なく、特にこれまで行ったことのない場所では、その場所が音声認識に適しているか否かがわからないために、その場所で残した音声に予想以上の雑音が混入されて音声認識の結果に悪影響がでるという課題があった。
対策の一つに、携帯機器内に雑音を除去する装置を物理的にいれこむ手法(例えば、特許文献1)がある。
特開平09−252268号公報
しかし、特許文献1に記載されているような手法は、全ての携帯機器に組み込まれているわけではなく汎用性が低かった。
そこで、本発明は、利用者が外出先等で音声を入力して音声認識を行う場合においてその場所で入力された音声の音声認識結果の誤りを低減することができる音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラムを提供することを目的とする。
本発明による音声認識支援システムは、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて記憶する記憶手段と、記憶手段に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えたことを特徴とする。
また、本発明による音声認識支援装置は、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて記憶する記憶手段と、記憶手段に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えたことを特徴とする。
また、本発明による利用者端末は、認識対象の音声を入力する場所とされる場所情報が入力された場合に、場所情報を所定のサーバ装置に送信して、場所情報と対応づけられている場所についての音声認識結果の精度を示す情報を受信する場所認識結果精度情報受信手段と、場所情報と、場所認識結果精度情報受信手段が受信した場所についての音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えたことを特徴とする。
また、利用者端末は、認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された音声に対する音声認識結果の精度を示す情報を収集する音声認識結果精度情報収集手段と、場所情報と、音声認識結果精度情報収集手段によって収集された音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えていてもよい。
また、本発明による音声認識支援方法は、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶しておき、記憶装置に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力することを特徴とする。
また、本発明による音声認識支援プログラムは、コンピュータに、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶させる記憶処理、および認識対象の音声を入力する場所とされる場所情報が指定された場合に、記憶装置に記憶されている指定された場所についての音声認識結果の精度を示す情報を出力する場所認識結果精度情報出力処理実行させることを特徴とする。
また、音声認識支援プログラムは、コンピュータに、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶させる記憶処理、および記憶装置に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理を実行させてもよい。
また、音声認識支援プログラムは、コンピュータに、認識対象の音声を入力する場所とされる場所情報が入力された場合に、場所情報を所定のサーバ装置に送信して、場所情報と対応づけられている場所についての音声認識結果の精度を示す情報を受信する受信処理、および場所情報と、受信した場所についての音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理を実行させてもよい。
また、音声認識支援プログラムは、コンピュータに、認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された音声に対する音声認識結果の精度を示す情報を収集する収集処理、および場所情報と、収集された音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理実行させてもよい。
本発明によれば、利用者が外出先等で音声を入力して音声認識を行う場合においてその場所で入力された音声の音声認識結果の誤りを低減することができる。
音声認識支援システムの構成例を示すブロック図である。 音声認識支援サーバの構成例を示すブロック図である。 利用者端末の構成例を示すブロック図である。 音声認識処理の処理フローの一例を示すフローチャートである。 認識結果テキスト表示処理の処理フローの一例を示すフローチャートである。 認識結果テキスト修正処理の処理フローの一例を示すフローチャートである。 音声認識適合スコア計算処理の処理フローの一例を示すフローチャートである。 音声認識適合場所判断処理の処理フローの一例を示すフローチャートである。 最寄最適場所提示処理の処理フローの一例を示すフローチャートである。 利用者DB19が保持する利用者テーブルの一例を示す説明図である。 音声認識結果DB17が保持する音声認識結果テーブルの一例を示す説明図である。 音声認識適合場所DB18が保持する認識場所テーブルの一例を示す説明図である。 音声認識結果DB17が保持する認識結果修正履歴テーブルの一例を示す説明図である。 (a)は認識結果テキスト一覧ページの一例を示す説明図であり、(b)は認識結果テキスト修正ページの一例を示す説明図である。 音声認識適合スコア計算処理の各ステップの具体例を示す説明図である。 本発明の概要を示すブロック図である。 本発明による音声認識支援システム500の他の構成例を示すブロック図である。
実施形態1.
以下、本発明の実施形態を図面を参照して説明する。まず、本実施形態について概要を説明する。本実施形態は、利用者が音声を残そうとしている場所、すなわち認識対象の音声が入力(録音)される場所が音声認識に適した場所か否かの情報を提供する。さらに、認識対象の音声が入力される場所が音声認識に適していないと判定した場合には、最寄りの適した場所の情報を提供する。このような情報提供を行うことによって、最寄りの適した場所への移動等を促すことができ、結果として雑音の混入を防ぎ音声認識結果の誤りを低減させることができる。なお、音声認識に適した場所とは、その場所で入力された音声に対して音声認識を行った場合に、高い精度で音声認識結果が得られる場所をいう。なお、高い精度で音声認識結果が得られるとは、例えば、話した音声が正確なテキストに変換されて出力されることである。
例えば、外回りをしている営業員が外で音声を入力してその音声に対して音声認識処理を行う場合を想定する。音声認識が誤る原因としては、話した言葉が辞書に存在しているかどうかやクリアな音かどうかなどがあるが、仮に雑音が混入していないクリアな音かどうかが音声認識の精度に大きく影響を与えると仮定すると、当然雑音が混入しない環境ほど音声認識の誤りは少ない。すなわち、音声認識処理の際に推定された雑音レベルや、利用者が音声認識結果に対して行った修正量が多いほど、音声認識に適していない場所で音声を残したと考えることができる。
図1は、本実施形態の音声認識支援システムの構成例を示すブロック図である。図1に示すように、本実施形態の音声認識支援システムは、音声認識支援サーバ100と、1つ以上の利用者端末(本例では、利用者端末301、302、303)とを備える。なお、音声認識支援サーバ100と各利用者端末とは、それぞれネットワーク200を介して接続されているものとする。
また、図2は、音声認識支援サーバ100の構成例を示すブロック図である。図2に示すように、音声認識支援サーバ100は、音声認識部11と、認識結果テキスト表示部12と、認識結果テキスト修正部13と、音声認識適合スコア計算部14と、音声認識適合場所判断部15と、最寄最適場所提示部16と、音声認識結果データベース(DB)17と、音声認識適合場所データベース(DB)18と、利用者データベース(DB)19とを備える。
音声認識部11は、利用者端末から音声データを受け取り、音声認識を実行する。認識結果テキスト表示部12は、音声認識した結果のテキストを利用者端末に表示させる。認識結果テキスト修正部13は、音声認識した結果のテキストを修正する。
音声認識適合スコア計算部14は、音声を入力した場所に対応づけてその場所の音声認識への適合度を計算する。本実施形態では、音声認識適合スコア計算部14は、その場所の音声認識への適合性の度合い(適合度)を示す音声認識適合スコアを算出する。
音声認識適合場所判断部15は、利用者が音声を入力(録音)しようとしている場所に対応づけられた音声認識適合スコアから、その場所が音声認識に適しているかどうか、より具体的には音声入力場所として適しているかどうかを判断する。最寄最適場所提示部16は、判断の結果、その場所の最寄りで音声認識に最適な場所を提示する。
音声認識結果DB17は、音声認識結果データを保存する。音声認識結果DB17は、例えば、本システムの利用者が様々な場所で入力した音声に対して行った音声認識結果を、その音声認識結果を識別するための情報と対応づけて保持してもよい。また、音声認識結果DB17は、音声認識結果の情報と併せて、利用者による音声認識結果テキストの修正内容を示す情報を保持する。
音声認識適合場所DB18は、音声を残した場所の音声認識への適合度を示す情報を保持する。音声認識適合場所DB18は、例えば、場所を示す情報と、当該場所についての音声認識適合スコアとを対応づけて保持してもよい。
利用者DB19は、利用者に関する情報である利用者情報を保持する。利用者DB19は、例えば、利用者を識別するための情報と、その利用者についての音声認識結果の精度を示す情報とを対応づけて保持してもい。なお、利用者についての音声認識結果の精度を示す情報は、利用者の特徴による影響が反映されないように、場所の音声認識適合スコアを算出するために用いる情報である。
また、図3は、利用者端末301の構成例を示すブロック図である。図3に示すように、利用者端末301は、送受信部31と、音声入力部32と、表示部33と、位置情報入力部34とを備える。
送受信部31は、ネットワーク200を介して、音声認識支援サーバ100との間で各種情報を送受信する。音声入力部32は、音声認識対象とする音声(音声データ)を入力する。音声入力部32は、マイクロフォンを備え、利用者の操作に応じてマイクロフォンが集音した音声データを入力する。表示部33は、音声認識支援サーバ100から受信した情報や、音声認識支援サーバ100に送信する情報を利用者に入力させるための画面を表示する。位置情報入力部34は、音声を入力した場所を示す位置情報や、適合場所判断を要求する場所の位置情報を入力する。位置情報入力部34は、例えば、GPS受信機を備え、音声を入力した際にGPS受信機が保持している緯度・経度情報を読み出すことによって音声を入力した場所を示す位置情報を入力してもよい。また、例えば、キーボードやマウス等の情報入力装置を介して利用者が指定(入力操作)した情報を入力してもよい。なお、適合場所判断を要求する場所の位置情報に限らず、音声を入力した場所を示す位置情報に、利用者が指定(入力操作)した情報を用いてもよい。
利用者端末は、例えば、プログラムに従って動作するCPUからの制御指示に応じて、情報の送受信や表示、音声データの入力等を行う。なお、このプログラムは、予め記憶装置に記憶されているプログラムに限らず、ブラウザ等を用いてサーバにアクセスすることによってダウンロードされるプログラム等を含む。
また、図3では、利用者端末301の例を示したが、他の利用者端末(利用者端末302、303等)も同様でよい。なお、本システムの動作は、音声入力から音声認識までと、音声認識結果の確認および修正と、音声認識場所の適合性判断と、というようにいくつかのフェーズに分けることが可能である。従って、利用者の利用形態に応じて各フェーズを実行する利用者端末を分けるなど、別々の利用者端末を用いることも可能である。
また、本実施形態において、音声認識部11、認識結果テキスト表示部12、認識結果テキスト修正部13、音声認識適合スコア計算部14、音声認識適合場所判断部15、最寄最適場所提示部16は、例えば、音声認識支援サーバが備えるデータ処理装置によって実現される。また、音声認識結果DB17、音声認識適合場所DB18、利用者DB19は、例えば、音声認識支援サーバが備えるメモリ、データベースシステムによって実現される。なお、データベースシステムには、要求に応じて、条件が合致するデータ群を一連のデータとして対応づけて出力する制御部を含む。
次に、本実施形態の動作について説明する。本実施形態では、大まかに次の処理フローを含む。
(1)音声認識を行った際に、場所情報と認識結果をシステムに蓄積する。
(2)音声認識結果が修正された際に、修正内容をシステムに蓄積する。
(3)認識結果の修正量と個人の平均修正量との差から、その場所が音声認識に適した場所かどうかのスコアを計算する。
(4)利用者がスコアが低い場所で認識対象となる音声を入力しようとしている場合は、その場所が音声認識に適していないことを提示し、最寄りのスコアが高い場所を提示する。
このように、ネットワークを介して不特定多数の利用者に利用させることで、幅広い利用者の音声認識結果を利用履歴として日々蓄積し、それを元にスコアの精度改善を行う。これにより、ある利用者が行ったことがない場所でもその場所が音声認識に適しているか否かの情報を得ることができる。
次に、図4〜図9を参照して各処理フローについてより詳細に説明する。まず、図4を参照して、利用者端末を用いて入力した音声を音声認識する処理について説明する。図4は、音声認識処理の処理フローの一例を示すフローチャートである。なお、本例では、利用者端末として携帯電話機を想定している。
図4に示すように、はじめに、利用者端末を用いて音声を録音する(S1001)。本例では、システムが保持する特定の電話番号に対して携帯電話機から発信し音声を話すことで、その音声がシステムに録音されることを想定している。利用者端末は、例えば、利用者からの操作に応じて、音声を入力し、入力された音声(音声データ)を音声認識支援サーバ100の音声認識部11に出力(送信)する。なお、音声録音方法としてはこの限りではない。
次に、認識対象の音声を受信すると、音声認識部11は、音声を入力した場所の緯度・経度情報、日時および携帯電話番号(利用者を識別できる情報)を取得する(S1002)。本例では、利用者端末に内蔵されたGPS受信機が保持している緯度・経度情報をネットワークを介してシステム(より具体的には、音声認識部11)が取得することを想定している。また、日時および携帯電話番号は音声録音時に取得することを想定している。なお、システム側から取得する方法に限らず、利用者端末が音声の録音を開始するタイミングで自発的に読み出し、音声データを送信する際に併せて現在位置の緯度・経度情報、現在日時および携帯電話番号を送信するようにしてもよい。
また、音声認識部11は、取得した携帯電話番号に一致する電話番号をもつ利用者IDを、利用者DB19の利用者テーブル(図10参照。)から取得する(S1003)。
図10は、利用者DB19が保持する利用者テーブルの一例を示す説明図である。図10に示す利用者テーブルは、利用者情報を登録するテーブルであって、利用者IDと、利用者の姓名と、電話番号と、音声認識スコア(平均)と、登録回数とを含む。
利用者IDは、当該システムにおいて利用者を識別するための識別子である。また、音声認識スコアは、その利用者についての音声認識結果の精度を示す情報であって、本実施形態では、音声認識適合スコア計算部14が利用者別に算出する音声認識スコア(平均)を登録する。登録回数は、その利用者が本システムに音声認識結果を登録した回数である。なお、利用者ID、姓名、電話番号は、本システムが当該処理を開始する前までに予め登録されているものとする。また、利用者別音声認識スコアの登録および登録回数の更新方法については後述する。
次に、音声認識部11は、S1001で録音した音声に対して音声認識を実行する(S1004)。本例では、音声認識方法として、特開2002−099296号公報に記載されているような公知の音声認識装置をシステムで搭載することを想定している。
音声認識が完了すると、音声認識部11は、利用者ID、S1004で音声認識して得られた認識結果のテキスト、緯度・経度、日時を音声認識結果DB17の音声認識結果テーブル(図11参照。)に登録する(S1005)。
図11は、音声認識結果DB17が保持する音声認識結果テーブルの一例を示す説明図である。図11に示す音声認識結果テーブルは、音声認識結果データを登録するテーブルであって、認識結果IDと、利用者IDと、認識結果テキストと、日時情報と、場所情報とを含む。
認識結果IDは、当該システムにおいて1件分の認識結果を識別するための識別子である。利用者IDは、当該認識結果を得た音声を入力した利用者を識別するための情報である。本例では、利用者テーブルの利用者IDが登録される。認識結果テキストは、音声認識して得られた認識結果を示すテキストである。日時情報は、当該認識結果を得た音声が入力(録音)された日時を示す情報である。場所情報は、当該認識結果を得た音声が入力(録音)された場所を示す情報(本例では、緯度経度)である。
例えば、利用者「鈴木和夫」が、携帯電話機を用いて、2010年7月12日 15時10分に緯度「35.651386」、経度「139.754183」の場所で残した音声を音声認識した場合、図11のレコード111のようなデータが登録され、認識結果ID(本例では、34)が採番されて記憶される。
次に、音声認識処理部11は、今回音声認識を行った音声が入力された場所(緯度・経度)と一致する場所情報が音声認識適合場所DB18の認識場所テーブル(図12参照。)に存在するか否かを判定する(S1006)。存在しない場合は(S1006のNo)、今回の緯度・経度を新たな音声認識場所として、音声認識適合場所DB18の認識場所テーブルに登録する(S1007)。そして、音声認識処理を終了する。一方、存在する場合は(S1006のYes)、そのまま処理を終了する。
図12は、音声認識適合場所DB18が保持する認識場所テーブルの一例を示す説明図である。図12に示す認識場所テーブルは、音声認識場所毎にその場所の音声認識適合スコアを登録するテーブルであって、認識場所IDと、場所情報と、音声認識適合スコアと、登録回数とを含む。
認識場所IDは、当該システムにおいて1つの認識場所を識別するための識別子である。場所情報は、当該場所を示す情報である。音声認識適合スコアは、その場所についての音声認識結果の精度を示す情報であって、本実施形態では、音声認識適合スコア計算部14が算出した音声認識適合スコアを登録する。登録回数は、本システムに認識場所としてその場所が登録された回数である。なお、音声認識適合スコアおよび登録回数は、S1007で音声認識部11が新たな認識場所を登録する際には、空データ(音声認識スコア未登録、登録回数0回など)でよい。音声認識適合スコアの登録および登録回数の更新方法については後述する。
次に、図5を参照して、音声認識した結果テキストを利用者に対して表示する認識結果テキスト表示処理について説明する。図5は、認識結果テキスト表示処理の処理フローの一例を示すフローチャートである。本例では、パーソナルコンピュータなどの端末を利用者が保持していることを想定し、また端末内に搭載されたWebブラウザ向けの画面をシステムが作成し、その画面を利用して情報の表示を行うことを想定している。なお、表示する端末や方法はこの限りではない。また、利用者はWebブラウザで画面を参照する初回時に利用者IDをシステムに送信し、個人認証がなされているものとする。
以下、利用者ID「1」の「鈴木和夫」が参照しているものとして説明する。ここでは、利用者端末は、利用者からの要求に応じて、システムが用意した所定のWebページにアクセスする。そこで、利用者IDを入力すると、認識結果テキストの表示要求が利用者IDとともに、音声認識支援サーバ100の認識結果テキスト表示部12に送信されるものとする。
図5に示すように、認識結果テキスト表示部12は、認識結果テキストの表示要求を受信すると、音声認識結果DB17の音声認識結果テーブル(図11参照。)から、受け取った利用者IDと一致する音声認識結果データ(より具体的には、認識結果テキスト)を取得する(S2001)。そして、取得した認識結果テキストの一覧を要求元である利用者端末の画面に表示させる(S2002)。
図14(a)は、認識結果テキスト一覧ページの一例を示す説明図である。図14(a)に示すように、その利用者が登録した音声に対する音声認識結果テキストを順に、認識結果IDとともに表示してもよい。また、図14(a)に示す例では、各音声認識結果テキストの表示領域に対して、その音声認識結果テキストの修正操作を開始する旨の指示を行う操作ボタン(修正ボタン)が設けられている。
利用者は、このような認識結果一覧の中から1件の認識結果を確認、編集する場合、図14(a)にあるような修正ボタンを押下すればよい。この時、利用者端末は、その操作に応じて、修正の開始と認識結果IDとを音声認識支援サーバ100に送信する。本例では、音声認識支援サーバ100には、認識結果IDとして「34」が送信される。
認識結果テキスト表示部12では、受け取った認識結果IDに一致する認識結果テキストを音声認識結果DB17の音声認識結果テーブルから取得し(S2003)、認識結果テキスト修正ページを表示する(S2004)。
図14(b)は、認識結果テキスト修正ページの一例を示す説明図である。図14(b)に示すように、修正対象とされた認識結果テキストを認識結果IDとともに表示してもよい。なお、認識結果テキスト修正ページにおける認識結果テキストは、利用者が編集可能なように表示されている。また、図14(b)に示す例では、その音声認識結果テキストの修正内容の確定を指示する操作ボタン(修正確定ボタン)が設けられている。
次に、図6を参照して、認識結果テキストを利用者が修正する認識結果テキスト修正について説明する。図6は、認識結果テキスト修正処理の処理フローの一例を示すフローチャートである。
今、利用者端末には、図5のS2004によって認識結果テキスト修正ページが表示されているものとする(S3001)。なお、修正の開始と認識結果IDとを認識結果テキスト修正部13が受け取り、認識結果テキスト修正処理において認識結果テキスト修正ページを表示してもよい。
利用者が認識結果テキストの誤りを修正して修正確定ボタンを押下すると、その旨が認識結果テキスト修正部13に送信されるものとする。認識結果テキスト修正部13は、修正確定を示すメッセージを受信すると、認識結果ID、修正された認識結果テキストを取得して、現在日時とともに音声認識結果DB17の認識結果修正履歴テーブル(図13参照。)に登録する(S3002)。
図13は、音声認識結果DB17が保持する認識結果修正履歴テーブルの一例を示す説明図である。図13に示す認識結果修正履歴テーブルは、利用者による音声認識結果テキストの修正内容を登録するテーブルであって、修正履歴IDと、認識結果IDと、(修正後の)認識結果テキストと、日時情報とを含む。
修正履歴IDは、当該修正内容を識別するための識別子である。認識結果IDは修正対象とされた認識結果テキストを識別するための識別子である。認識結果IDは、認識結果テーブルの認識結果IDが登録される。認識結果テキストは、利用者によって修正された後の認識結果テキストである。日時情報は、修正された日時を示す情報である。
例えば、図14(b)に示した内容に認識結果テキストを修正した場合、認識結果修正履歴テーブルには、図13のレコード131のようなデータが登録され、修正履歴ID(本例では、100)が採番されて記憶される。
次に、図7および図15を参照して、音声を入力した場所の音声認識への適合度を示す音声認識適合スコアを計算する音声認識適合スコア計算処理について説明する。図7は、音声認識適合スコア計算処理の処理フローの一例を示すフローチャートである。また、図15は、図7に示す各ステップの具体例を示す説明図である。
以下では、図14に示すように、利用者ID「1」の「鈴木和夫」が、認識結果ID「34」を修正した場合を例にあげて説明する。例えば、修正後の認識結果テキストが認識結果修正履歴テーブルに登録されると、認識結果テキスト修正部13から音声認識適合スコア計算部14にその旨が通知されるものとする。図7に示す例では、通知を受けた音声認識適合スコア計算部14は、まず、修正された認識結果テキストの認識結果IDに一致する認識結果テキスト(修正前の認識結果テキスト)と場所情報とを音声認識結果DB17の音声認識結果テーブルから取得する(S4001)。
次に、認識結果IDに一致する修正結果テキストを音声認識結果DB17の認識結果修正履歴テーブルから取得する(S4002)。ここでは、修正前の音声認識テキストを読み出す。
次に、修正量として、認識結果テキストと修正結果テキストとを比較した際の異なる文字数を計数し、認識結果テキスト数に占める異なる文字数の割合を計算する(S4003)。本例では、認識結果テキストの文字数が「45」、認識結果テキストと修正結果テキスト中の異なる文字数(修正量)が「14」であるため、認識結果テキスト数に占める異なる文字数の割合は「14/45=0.31」となる(図15のS4003参照。)。本例では、ステップS4003で算出する認識結果テキスト数に占める異なる文字数の割合を、当該音声認識結果についての音声認識の精度を示す音声認識スコアとして扱う。なお、本例の音声認識スコアは、異なる文字数の割合が大きいほど、すなわち音声認識の精度が低くなるほど値が大きくなる性質となっていることに注意が必要である。
次に、認識結果IDに一致する利用者IDを音声認識結果DB17の音声認識結果テーブルから取得する(S4004)。ここでは、当該音声認識結果を登録した利用者IDを読み出す。
次に、利用者DB18の利用者テーブル(図10参照。)から利用者IDに一致する音声認識スコア(平均)を取得し、S4003で算出した今回の音声認識スコアとの差を計算する(S4005)。ここでは、今回の音声認識結果の精度が、利用者の平均的な音声認識結果の精度とどれくらい異なるかを計算している。本例では、図10のレコード101に示すように、音声認識スコア(平均)「0.21」が取得され、差は「0.31−0.21=0.1」となる(図15のS4005参照。)。この値は、当該音声認識場所が、0.1スコアを悪化させる場所であったと判断されたことを意味している。
本実施形態では、ステップS4005で求めた差を、音声認識適合スコアと呼ぶ。なお、ステップS4005で求めた音声認識適合スコアは、厳密には今回の音声認識結果によるその場所の音声認識結果の精度を示す音声認識適合スコアである。なお、利用者テーブルから取得した音声認識スコア(平均)は、利用者がこれまでにさまざまな場所で音声認識した結果の精度を示す音声認識スコア(ここでは、音声認識テキストとその修正結果テキストの異なる文字数割合)を平均化した数値であり、この数値は、その利用者個人についの音声認識への適合度を示す指標となる。S4005で算出する音声認識適合スコアは、今回ある場所で録音した音声に対して音声認識した結果の音声認識スコアと、その利用者の音声認識スコア(平均)との差であることから、この数値が0より大きい場合は、今回の場所は音声認識への適合度が平均よりも低いと考えることができる。
次に、S4003で算出した今回の音声認識スコアを基に、その利用者の音声認識スコア(平均)を再計算し、利用者DB10の利用者テーブルの音声認識スコア(平均)に登録する(S4006)。今回の場合、これまでの音声認識スコア(平均)が「0.21」、登録回数が「15」であり、今回の音声認識スコアが「0.31」であることから、登録回数を1つ増やして「(0.21*15+0.31)/16=0.22(少数点以下3位で四捨五入)」と変化する(図15のS4006参照。)。
次に、音声認識適合場所DB18の認識場所テーブル(図12参照。)から、S4001で取得した緯度・経度が一致する場所の認識場所IDと音声認識適合スコア(平均)を取得する(S4007)。ここでは、現時点での当該場所の音声認識適合スコア(平均)を読み出す。本例では、図12のレコード121に示すように、認識場所ID「5」、音声認識適合スコア(平均)「0.12」が取得される。
ここで、認識場所の音声認識適合スコア(平均)とは、様々な利用者がこの場所で音声認識した際の音声認識適合スコアの平均を算出した数値である。この数値は、その場所の音声認識への適合度を示す指標となり、この数値が大きいほど音声認識への適合度が低いとみなせる。なお、この値は、音声認識適合スコアと同様に、0より大きい場合は、システムの利用者の平均的な修正量よりも多い修正量が見込まれる場所であると考えることができる。一方、マイナスの値であれば、システムの利用者の平均的な修正量よりも少ない修正量で済む場所であると考えることができる。
次に、S4005で算出した音声認識適合スコアを基に、その場所の音声認識適合スコア(平均)を再計算し、音声認識適合場所DB18の認識場所テーブルの音声認識適合スコア(平均)に登録する(S4008)。なお、平均を求める方法は、単純平均でもよいし、二乗平均等でもよい。今回の場合、その場所のこれまでの音声認識適合スコア(平均)が「0.12」であり、登録回数が「3」であることから、登録回数を1つ増やして「(0.12*3+0.1)/4=0.12(少数点以下3位で四捨五入)」と算出する。ここで、例えば、今回算出した音声認識適合スコアをその場所の音声認識適合スコア(平均)に加える際に重み付けを行ってもよい。例えば、今回の音声認識の条件だと音声入力場所として好ましくないことが予め分かっている場合には、低い重み係数を掛けて寄与度を下げてもよい。
次に、図8を参照して、利用者が携帯電話機を用いて音声を残そうとする際に、音声入力を行う場所が音声認識に適しているかどうかを判断する音声認識適合場所判断処理について説明する。図8は、音声認識適合場所判断処理の処理フローの一例を示すフローチャートである。
音声認識支援サーバ100の音声認識適合場所判断部15は、まず、利用者が音声を残そうとしている場所の緯度・経度を携帯電話機から取得する(S5001)。取得方法は音声認識部11で想定した方法と同様でよい。なお、場所情報は、現在位置を示す場所情報とは限らない。例えば、利用者端末を介して、これから音声を入力しようとしている場所を利用者に入力させてもよい。
次に、取得した緯度・経度が一致する場所の認識場所IDを音声認識適合場所DB18の認識場所テーブル(図12参照。)から取得し(S5002)、該当する認識場所IDが存在するかどうか判定する(S5003)。該当する認識場所IDが存在しない場合は(S5003のNo)、音声認識適合スコアがまだ算出されていない新規な場所であるとして、そのまま音声を録音させて音声認識部11に音声認識を実行させればよい。
以下では、図12のレコード122で示す認識場所IDが「7」の場所が一致したとして説明する。該当する認識場所IDが存在する場合(S5003のYes)、音声認識適合場所判断部15は、音声認識適合場所DB18の認識場所テーブルから認識場所IDが一致する場所の音声認識適合スコア(平均)を取得する(S5004)。本例では、「0.43」が取得される。
次に、取得した音声認識適合スコア(平均)が所定の閾値(X)以上の数値か否かを判定する(S5005)。ここでXとは0以上1以下の任意の数値であり、音声認識適合スコア(平均)がこの数値以上だと音声認識に適合した場所ではないとシステム管理者が判断する数値である。管理者が自由に設定・変更できるものとする。判定の結果、音声認識適合スコア(平均)が所定の閾値(X)以上である場合には(S5005のYes)、最寄最適場所提示処理に進む。本例では、Xが0.3と設定されていると仮定する。すると、音声認識適合スコア(平均)「0.43」の方が大きいので、最寄最適場所提示処理に進む。一方、音声認識適合スコア(平均)の方が小さい場合は(S5005のNo)、そのまま音声を録音させて音声認識部11に音声認識を実行させればよい。
次に、図9を参照して、利用者の最寄りで音声認識に最適な場所を提示する最寄最適場所提示処理について説明する。図9は、最寄最適場所提示処理の処理フローの一例を示すフローチャートである。
最寄最適場所提示処理では、最寄最適場所提示部16が、音声認識適合場所判断処理のS5005で取得した経度・緯度情報を基に、その場所から近く、かつ音声認識適合スコア(平均)がXより低い場所を、音声認識適合場所DB18の認識場所テーブルから検索し、最大Y件取得する(S6001)。ここでYとは、1以上の任意の整数であり、システム管理者が自由に設定・変更できるものとする。本例では、Yが1と設定されていると仮定し、検索の結果、図12のレコード123に示す認識場所ID「12」の場所が近いと判定されたと仮定する。
条件に合致する場所の情報が取得されると、最寄最適場所提示部16は、要求元の携帯電話機の画面に、その場所の情報を表示する。本例では、最寄の地図を表示し、その中にS6001で取得した緯度・経度の場所をプロットして表示する(S6002)。なお、条件に合致する場所の情報が存在しなかった場合には、その旨を通知するか、または取得した場所からの距離が所定の範囲内であって取得した場所よりも音声認識適合スコア(平均)が低い、すなわち適合性がより高い場所がある場合には、その場所の情報を提示するようにしてもよい。また、本例では、複数の場所のリストを地図上で示す場合を説明したが、それらから1つの場所を絞り込んで提示してもよい。例えば、所定範囲内で最も音声認識適合スコアがよい場所に絞り込んでもよいし、音声認識適合スコアが閾値を満足しているもののうち最も指定された場所からの距離が近い場所を絞り込んでもよい。
以上のように、本実施形態によれば、音声を残そうとしている場所の音声認識への適合度を元に、適合度が低い場合は、最寄りの適合度の高い場所を提示し移動を促すことで、音声認識結果の誤りを低減させることができる。
なぜなら、個々の音声認識結果の精度を示す情報(本例では、音声認識結果の修正量)を元に、音声認識場所の音声認識適合スコア(平均)を算出し、その音声認識適合スコア(平均)を判断基準に用いてその場所が音声認識に適しているか否かを判断するからである。なお、本実施形態によれば、音声を残そうとしている場所が屋外であるか屋内である否かに関わらず、また当該利用者が実際にその場所に行ったことがない場合であっても、その場所の音声認識への適否を判断することができる。
また、本実施形態では、個人の特徴による影響が反映されにくいように音声認識適合スコア(平均)を算出している。例えば、同じ文を複数人が話しても、人によって声の大きさ・発音・かつぜつなどが違うため、音声認識結果の良し悪しは異なる。このため、単純に音声認識テキストの修正量を拠り所として音声認識スコアを算出するだけでは、特定の場所についての適合性を正しく算出することは難しい。音声認識の良し悪しが場所に拠るものなのか、人に拠るものなのかの切り分けが出来ないからである。
本実施形態では、個人の過去の修正量の平均とその場所での修正量の差を算出し、その結果の値をその場所についての音声認識適合スコアの算出に利用するというように、個人毎の偏りを防ぐための処理を組み込んでいる。このため、より精度よく最寄りの音声認識に適した場所を提示することができる。
また、さまざま利用者の音声認識および認識結果の修正ログを活用して、音声認識場所の音声認識適合スコア(平均)の計算を日々繰り返すので、適合性判断の精度を向上させることができる。
なお、上記実施形態では、音声認識結果テーブルに音声認識結果を示す情報として、音声認識テキストを登録する例を示したが、音声認識結果テキストだけでなく、音声認識に影響を与える雑音レベルや、音声認識結果テキストの尤度など、音声認識の結果得られる音声認識結果の精度を示す情報を含んでいてもよい。
また、上記実施形態では、場所情報として緯度・経度を登録する例を示したが、緯度経度の他に、その場所がどのような場所であるかを示す情報を予め種別化した情報等、音声認識結果に影響を与えるその場所の特性を示す情報を含んでいてもよい。例えば、音声認識適合スコア計算部14は、これら雑音レベルや尤度を場所毎に平均化して音声認識適合スコア(平均)として出力してもよい。そのような場合には、音声認識適合場所判断部15は、出力された場所毎の雑音レベルや尤度の平均が閾値を満足しているか否かを判断して、音声認識に適しているか否かを判断するようにすればよい。なお、修正量の場合と同様、今回の雑音レベルや尤度と、その利用者の過去の雑音レベルや尤度の平均との差を利用して、当該音声の入力場所についての音声認識適合スコアを算出してもよい。
また、上記実施形態では、1つの場所とする単位を、緯度・経度が一致するか否かで判断する例を示したが、ある一定の基準(半径xm以内や階数、地図等によって示される敷地内等)に沿って同じ場所とされるような単位(そのような分類における場所の範囲)を用いることも可能である。そのような場合には、取得した場所情報によって示される場所が、認識場所テーブルに登録されている場所情報によって示される場所から一定の範囲内に属するか否かを判定すればよい。
また、上記実施形態では、場所についての音声認識結果の精度を示す情報として、音声認識適合スコアを算出する例を示したが、場所についての音声認識結果の精度を示す情報は音声認識適合スコアに限られない。例えば、各音声に対する音声認識スコアをその音声入力場所毎に分類して平均化したものであってもよい。また、例えば、その場所で入力された音声に対する音声認識処理等によって検出された当該音声に含まれる雑音レベルをそのまま用いることも可能である。そのような場合には、音声認識適合スコア計算部14の処理の代わりに、音声認識処理によって検出された雑音レベルを、音声認識結果の精度を示す情報としてその音声が入力された場所の場所情報と対応づけて記憶させればよい。
上記実施形態では、音声入力を開始する際に、その場所が音声認識に適しているか否かを判定し、適していないと判定された場合に最寄の適合場所を提示する例を示したが、その場所が適しているか否かの情報の出力例はこれに限らない。例えば、音声入力場所の候補とする場所が指定されたときに、その場所についての音声認識結果の精度を示す情報(音声認識適合スコアや、雑音レベル)をそのまま出力することによって利用者側で適否を判断させることも可能である。また、例えば、その情報を基に段階的な評価値(大いに適している/中段階に適している/あまり適していない等)にして出力することも可能である。
また、上記実施形態では、音声認識支援サーバ100が、音声認識部11を備える形態を示したが、音声認識部11は外部のシステムであってもよい。そのような場合には、音声認識部11の代わりに、音声認識結果データをその外部のシステムから収集する収集部を備えていればよい。
また、上記実施形態では、音声認識支援サーバ100側で、音声認識処理から最寄最適場所提示処理までの処理を実行する例を示したが、これらの処理を利用者端末単体で実行することも可能である。そのような場合には、利用者端末に音声認識支援装置または音声認識支援プログラムを組み込む形とすればよい。すなわち、利用者端末が、音声認識部11、認識結果テキスト表示部12、認識結果テキスト修正部13、音声認識適合スコア計算部14、音声認識適合場所判断部15、最寄最適場所提示部16とを備える構成であってもよい。また、音声認識部11、認識結果テキスト表示部12、認識結果テキスト修正部13を省略して、本システムでは、各々の音声認識結果の精度を示す情報とその音声の情報として音声入力場所を含む情報とを収集する処理から実装することも可能である。また、これらのうちの一部をサーバ側で、他の部分を端末側に備えてもよい。
例えば、利用者端末側で、認識対象の音声を入力する場所とされる場所情報が入力された場合に、当該場所情報をサーバに送信して、当該場所情報と対応づけられている音声認識適合スコア等を受信し、受信した情報から、その場所が音声認識に適しているか否かの情報を出力するようにしてもよい。そのような場合には、利用者端末側で、サーバから指定された場所についての音声認識結果の精度を示す情報を受信する受信部と、音声認識適合場所判断部15と、最寄最適場所提示部16とを備えるようにすればよい。
また、例えば、利用者端末側で、認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された各音声に対する音声認識結果の精度を示す情報(雑音レベルや修正量など)を収集し、収集した情報から認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力するようにしてもよい。そのような場合には、利用者端末側で、入力された場所情報が示す場所で入力された各音声に対する音声認識結果の精度を示す情報を収集する収集部と、収集された情報からその場所についての音声認識結果の精度を示す情報を生成する生成部と、音声認識適合場所判断部15と、最寄最適場所提示部16とを備えるようにすればよい。なお、収集された情報からその場所についての音声認識結果の精度を示す情報を生成する生成部として音声認識適合スコア計算部14を備えるようにしてもよい。
なお、ネットワークを介して音声認識結果データ等の収集を行わずに、当該利用者一人分のデータを記憶する音声認識結果DB17、音声認識場所DB18、利用者DB19を利用者端末が備える構成であっても実現可能である。また、これらのうちの一部をサーバ側で、他の部分を端末側に備えてもよい。
また、上記実施形態では、音声認識結果の修正が確定したタイミングで、音声認識適合スコアを算出・更新し、その値を記憶手段に保持しておき、利用者から音声を残そうとしている場所の適合性の判断要求を受け付けたときに、記憶手段に保持されている音声認識適合スコアを確認し、適合しているか否かを判定を行う例を示したが、記憶手段に保持しておくデータの内容やスコア算出のタイミングはこの限りではない。例えば、データベースには各々の音声認識結果とその修正結果とを蓄積しておき、利用者からの判断要求時に指定された場所情報を基に必要な結果を読み出してその場所についての音声認識適合スコアを算出、適否判定を行うことも可能である。また、例えば、データベースには、変更確定時に算出した音声認識適合スコアとともに、その適否判定結果を示す情報を保持しておき、利用者からの判断要求時には、保持されている適否判定結果を読み込むだけで、その結果を基に応答または最寄最適場所を提示するようにすることも可能である。
実施形態2.
本実施形態では、音声認識した日時の情報を利用する。特定の場所の周囲雑音は、日時や時間によって変化する。例えば、同じ場所でも週末は騒がしいが平日は静か、夏場はうるさいがそれ以外の季節は静か等である。
本実施形態では、このような特徴を、蓄積しておいた音声入力日時情報を元に音声認識適合スコアに反映させる。すなわち、蓄積しておいた音声認識日時情報から、特定の場所の音声認識適合スコアの特徴を計算して、データとして保持しておくことによって、ユーザが音声認識した日時条件にあった音声認識スコアを返すようにする。
より具体的には、第1の実施形態の音声認識結果テーブルに、予め定めておいた日時の区分ごと(時間帯ごと、季節ごと、曜日ごと等)の音声認識スコアが登録できるよう音声認識スコア列を追加する。そして、音声認識スコアを音声認識結果テーブルに登録する際に、その音声が入力された日時情報に基づいて分類される区分の音声認識スコア列に登録する。同様に、認識場所テーブルには、予め定めておいた日時の区分ごとの音声認識適合スコアが登録できるようにする。例えば、日時と時間帯と音声認識適合スコアとを対応づけて保持する。また、音声認識適合スコアを求める際には、同一区分の音声認識スコアのみを用いて算出する。
例えば、時間帯ごとの音声認識適合スコアを計算するとする。例えば、時間帯を次のように定義しておく。深夜:0〜4時、早朝:4〜6時、午前中:8〜12時、昼間:12〜16時、夕方:16〜19時、夜:19〜24時など。なお、季節や曜日なども任意で定義することでより詳細な情報提供が可能である。
まず、音声認識結果テーブルから特定の場所に該当する行の情報のみを取得する。該当行の時刻が上記のどの時間帯に合致するかを判定する。算出した音声認識適合スコアは、場所情報、日時情報、時間帯情報とともに、認識場所テーブルに登録する。このとき、場所情報と時間帯情報とが一致する音声認識適合スコア(平均)が既に登録されていれば、今回算出した音声認識適合スコアを加味して平均を再計算する。さらに、時間帯を考慮しない音声認識適合スコアも算出しておく。
音声認識適合場所判断処理では、認識場所テーブルの同一時間帯の音声認識適合スコア(平均)と、時間帯を考慮しない音声認識適合スコア(平均)すなわち第1の実施形態と同じ方法で求めた場所についての音声認識適合スコア(平均)とを比較し、前者の方が高い場合には、指定された時間帯ではその場所が認識に適していないと判断し、同一時間帯において音声認識適合スコアが低い最寄の場所を提示する。
なお、認識場所テーブルの同一時間帯の音声認識適合スコア(平均)と所定の閾値(X)とを比較して、適否判断を行うことも可能である。
以上のように、本実施形態によれば、より正確な情報提供を行うことができるので、利用者が外出先等で音声を入力して音声認識を行う場合においてその場所で入力された音声の音声認識結果の誤りをより低減させることができる。
次に、本発明の概要について説明する。図16は、本発明の概要を示すブロック図である。図16に示すように、本発明の音声認識支援システム500は、記憶手段501と、音声認識場所適否情報出力手段502とを備える。
記憶手段501は、場所を示す場所情報と、場所についての音声認識結果の精度を示す情報とを対応づけて記憶する。記憶手段501は、上記実施形態では、認識場所適合DB18として開示されている。
音声認識場所適否情報出力手段502は、記憶手段501に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する。
なお、ここで「出力」とは、1つの装置内における処理部単位でのメッセージ送信や、モジュール間でのデータの出力を含むものとする。また、記憶手段を介して他の手段に情報が渡る場合にはその記憶手段に書き込む場合も含むものとする。
また、音声認識支援システム500は、ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として用いてもよい。例えば、記憶手段501は、ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として、場所情報と対応づけて記憶してもよい。
また、記憶手段501は、場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、場所についての音声認識結果の精度を示す情報を記憶し、音声認識場所適否情報出力手段502は、記憶手段501に指定された場所の場所情報と対応づけて記憶されている音声認識結果の精度を示す情報のうち現在の日時が分類される所定の区分に属する音声認識結果の精度を示す情報に基づいて、指定された場所が音声認識に適しているか否かの情報を出力してもよい。
また、音声認識場所適否情報出力手段は502、記憶手段501に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報を、指定された場所が音声認識に適した場所か否かの情報として出力してもよい。
また、音声認識場所適否情報出力手段502は、記憶手段501に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報によって示される音声認識結果の精度が所定の条件を満たしているか否かを判定し、判定の結果を、指定された場所が音声認識に適した場所か否かの情報として出力してもよい。
また、図17は、本発明による音声認識支援システム500の他の構成例を示すブロック図である。図17に示すように、音声認識支援システム500は、さらに、音声認識適合スコア算出手段503や、最寄適合場所提示手段504を備えていてもよい。
音声認識適合スコア算出手段503は、音声を入力した場所を示す場所情報と、音声に対する音声認識結果の精度を示す情報とに基づいて、場所情報が示す場所の音声認識への適合度を示す音声認識適合スコアを算出する。音声認識適合スコア算出手段503は、上記実施形態では、音声認識部適合スコア計算部14として開示されている。
そのような場合には、音声認識適合スコア算出手段503によって算出された音声認識適合スコアを、場所についての音声認識結果の精度を示す情報として用いてもよい。例えば、記憶手段501は、音声認識適合スコア算出手段503によって算出された音声認識適合スコアを、該場所についての音声認識結果の精度を示す情報として、場所情報と対応づけて記憶してもよい。なお、ここで対応づける場所情報は、音声を入力した場所を示す場所情報と完全に一致している必要はない。例えば、ある一定の基準に沿って、音声を入力した場所と同じ場所とされるような場所情報を用いてもよい。
また、例えば、音声認識適合スコア算出手段503は、ある利用者が話した音声の音声認識結果に対して該利用者が行った修正量を当該音声認識結果の精度を示す情報とみなして、当該音声の入力場所についての音声認識適合スコアを算出してもよい。
また、音声認識適合スコア算出手段503は、ある利用者が話した音声の音声認識結果に対して該利用者が行った修正量と、該利用者の過去の修正量の平均との差を利用して、当該音声の入力場所についての音声認識適合スコアを算出してもよい。
また、音声認識適合スコア算出手段503は、利用者が話した音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該音声の音声認識結果の精度を示す情報とみなして、当該音声の入力場所についての音声認識適合スコアを算出してもよい。
また、音声認識適合スコア算出手段503は、音声が入力された日時情報に基づいて分類される所定の区分に分けて音声認識適合スコアを算出してもよい。記憶手段501は、場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、音声認識適合スコア算出手段503によって算出された音声認識適合スコアを記憶してもよい。そして、音声認識場所適否情報出力手段501は、現在の日時が分類される所定の区分に属する音声認識適合スコアに基づいて、指定された場所が音声認識に適しているか否かの情報を出力してもよい。
最寄適合場所提示手段504は、音声認識場所適否情報出力手段502によって出力された指定された場所が音声認識に適しているか否かの情報に基づいて、指定された場所が音声認識に適していないと判定した場合に、指定された場所に近い音声認識に適した場所の情報を出力する。最寄適合場所提示手段504は、上記実施形態では、最寄最適場所提示部16として開示されている。
なお、最寄適合場所提示手段504は、指定された場所からの距離が所定の範囲内の場所であって、当該場所についての音声認識適合スコアが所定の条件を満たしている場所の情報を出力してもよい。
本発明は、不特定の場所で音声を入力して音声認識を行う可能性のあるシステムであれば好適に適用可能である。
100 音声認識支援サーバ
11 音声認識部
12 認識結果テキスト表示部
13 認識結果テキスト修正部
14 音声認識適合スコア計算部
15 音声認識適合場所判断部
16 最寄最適場所提示部
17 音声認識結果データベース
18 音声認識適合場所データベース
19 利用者データベース
200 ネットワーク
301、302、303 利用者端末
31 送受信部
32 音声入力部
33 表示部
34 位置情報入力部
500 音声認識支援システム
501 記憶手段
502 音声認識場所適否情報出力手段
503 音声認識適合スコア算出手段
504 最寄適合場所提示手段

Claims (35)

  1. 場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて記憶する記憶手段と、
    前記記憶手段に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えた
    ことを特徴とする音声認識支援システム。
  2. 音声を入力した場所を示す場所情報と、前記音声に対する音声認識結果の精度を示す情報とに基づいて、前記場所情報が示す場所の音声認識への適合度を示す音声認識適合スコアを算出する音声認識適合スコア算出手段を備え、
    前記音声認識適合スコア算出手段によって算出された音声認識適合スコアを、前記場所についての音声認識結果の精度を示す情報として用いる
    請求項1に記載の音声認識支援システム。
  3. 音声認識適合スコア算出手段は、ある利用者が話した音声の音声認識結果に対して前記利用者が行った修正量を前記音声に対する音声認識結果の精度を示す情報とみなして、前記音声の入力場所についての音声認識適合スコアを算出する
    請求項2に記載の音声認識支援システム。
  4. 音声認識適合スコア算出手段は、ある利用者が話した音声の音声認識結果に対して前記利用者が行った修正量と、前記利用者の過去の修正量の平均との差を利用して、前記音声の入力場所についての音声認識適合スコアを算出する
    請求項3に記載の音声認識支援システム。
  5. 音声認識適合スコア算出手段は、ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、当該音声に対する音声認識結果の精度を示す情報とみなして、当該音声の入力場所についての音声認識適合スコアを算出する
    請求項2に記載の音声認識支援システム。
  6. ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として用いる
    請求項1に記載の音声認識支援システム。
  7. 記憶手段は、場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、前記場所についての音声認識結果の精度を示す情報を記憶し、
    音声認識場所適否情報出力手段は、前記記憶手段に指定された場所の場所情報と対応づけて記憶されている音声認識結果の精度を示す情報のうち現在の日時が分類される前記所定の区分に属する音声認識結果の精度を示す情報に基づいて、指定された場所が音声認識に適しているか否かの情報を出力する
    請求項1から請求項6のうちのいずれか1項に記載の音声認識支援システム。
  8. 音声認識場所適否情報出力手段は、記憶手段に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報を、指定された場所が音声認識に適した場所か否かの情報として出力する
    請求項1から請求項7のうちのいずれか1項に記載の音声認識支援システム。
  9. 音声認識場所適否情報出力手段は、記憶手段に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報によって示される音声認識結果の精度が所定の条件を満たしているか否かを判定し、判定の結果を、指定された場所が音声認識に適した場所か否かの情報として出力する
    請求項1から請求項8のうちのいずれか1項に記載の音声認識支援システム。
  10. 音声認識場所適否情報出力手段によって出力された前記指定された場所が音声認識に適しているか否かの情報に基づいて、指定された場所が音声認識に適していないと判定した場合に、指定された場所に近い音声認識に適した場所の情報を出力する最寄適合場所提示手段を備えた
    請求項1から請求項9のうちのいずれか1項に記載の音声認識支援システム。
  11. 最寄適合場所提示手段は、指定された場所からの距離が所定の範囲内の場所であって、当該場所についての音声認識結果の精度が所定の条件を満たしている場所の情報を出力する
    請求項10に記載の音声認識支援システム。
  12. 場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて記憶する記憶手段と、
    前記記憶手段に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えた
    ことを特徴とする音声認識支援装置。
  13. 音声を入力した場所を示す場所情報と、前記音声に対する音声認識結果の精度を示す情報とに基づいて、前記場所情報が示す場所の音声認識への適合性を示す音声認識適合スコアを算出する音声認識適合スコア算出手段を備え、
    前記音声認識適合スコア算出手段によって算出された音声認識適合スコアを、前記場所についての音声認識結果の精度を示す情報として用いる
    請求項12に記載の音声認識支援装置。
  14. ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として用いる
    請求項12に記載の音声認識支援装置。
  15. 記憶手段は、場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、前記場所についての音声認識結果の精度を示す情報を記憶し、
    音声認識場所適否情報出力手段は、前記記憶手段に指定された場所の場所情報と対応づけて記憶されている音声認識結果の精度を示す情報のうち現在の日時が分類される前記所定の区分に属する音声認識結果の精度を示す情報に基づいて、指定された場所が音声認識に適しているか否かの情報を出力する
    請求項12から請求項14のうちのいずれか1項に記載の音声認識支援装置。
  16. 音声認識場所適否情報出力手段は、記憶手段に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報を、指定された場所が音声認識に適した場所か否かの情報として出力する
    請求項12から請求項15のうちのいずれか1項に記載の音声認識支援装置。
  17. 音声認識場所適否情報出力手段によって出力された、指定された場所が音声認識に適しているか否かの情報に基づいて、前記指定された場所が音声認識に適していないと判定した場合に、前記指定された場所に近い音声認識に適した場所の情報を出力する最寄適合場所提示手段を備えた
    請求項12から請求項16のうちのいずれか1項に記載の音声認識支援装置。
  18. 認識対象の音声を入力する場所とされる場所情報が入力された場合に、前記場所情報を所定のサーバ装置に送信して、前記場所情報と対応づけられている前記場所についての音声認識結果の精度を示す情報を受信する場所認識結果精度情報受信手段と、
    前記場所情報と、前記場所認識結果精度情報受信手段が受信した前記場所についての音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えた
    ことを特徴とする利用者端末。
  19. 認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された各音声に対する音声認識結果の精度を示す情報を収集する音声認識結果精度情報収集手段と、
    前記音声認識結果精度情報収集手段によって収集された各音声に対する音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力手段とを備えた
    ことを特徴とする利用者端末。
  20. 音声認識結果精度情報収集手段によって収集された音声認識結果の精度を示す情報とに基づいて、入力された場所情報が示す場所の音声認識への適合性を示す音声認識適合スコアを算出する音声認識適合スコア算出手段を備え、
    音声認識場所適否情報出力手段は、前記音声認識適合スコア算出手段によって算出された音声認識適合スコアに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する
    請求項19に記載の利用者端末。
  21. 音声認識場所適否情報出力手段によって出力された、指定された場所が音声認識に適しているか否かの情報に基づいて、前記指定された場所が音声認識に適していないと判定した場合に、前記指定された場所に近い音声認識に適した場所の情報を出力する最寄適合場所提示手段を備えた
    請求項18から請求項20のうちのいずれか1項に記載の利用者端末。
  22. 認識対象の音声を入力する場所とされる場所情報として、当該利用者端末の現在の位置情報を入力する位置情報入力手段を備えた
    請求項18から請求項21のうちのいずれか1項に記載の利用者端末。
  23. 場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶しておき、
    前記記憶装置に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する
    ことを特徴とする音声認識支援方法。
  24. 音声を入力した場所を示す場所情報と、前記音声に対する音声認識結果の精度を示す情報とに基づいて、前記場所情報が示す場所の音声認識への適合度を示す音声認識適合スコアを算出し、
    前記算出された音声認識適合スコアを前記場所についての音声認識結果の精度を示す情報として用いる
    請求項23に記載の音声認識支援方法。
  25. ある利用者が話した音声の音声認識結果に対して前記利用者が行った修正量を前記音声に対する音声認識結果の精度を示す情報とみなして、前記音声の入力場所についての音声認識適合スコアを算出する
    請求項24に記載の音声認識支援方法。
  26. ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、当該音声に対する音声認識結果の精度を示す情報とみなして、当該音声の入力場所についての音声認識適合スコアを算出する
    請求項24に記載の音声認識支援方法。
  27. ある場所で入力された音声に対する音声認識処理によって検出された当該音声に含まれる雑音レベルを、該場所についての音声認識結果の精度を示す情報として用いる
    請求項23に記載の音声認識支援方法。
  28. 場所情報に対応づけるとともに、音声が入力された日時情報に基づいて分類される所定の区分に分けて、前記場所についての音声認識結果の精度を示す情報を記憶しておき、
    指定された場所の場所情報と対応づけて記憶されている音声認識結果の精度を示す情報のうち現在の日時が分類される前記所定の区分に属する音声認識結果の精度を示す情報に基づいて、指定された場所が音声認識に適しているか否かの情報を出力する
    請求項23から請求項27のうちのいずれか1項に記載の音声認識支援方法。
  29. 所定の記憶装置に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報を、指定された場所が音声認識に適した場所か否かの情報として出力する
    請求項23から請求項28のうちのいずれか1項に記載の音声認識支援方法。
  30. 所定の記憶装置に指定された場所についての音声認識結果の精度を示す情報が記憶されている場合に、該音声認識結果の精度を示す情報によって示される音声認識結果の精度が所定の条件を満たしているか否かを判定し、判定の結果を、指定された場所が音声認識に適した場所か否かの情報として出力する
    請求項23から請求項28のうちのいずれか1項に記載の音声認識支援方法。
  31. 出力された前記指定された場所が音声認識に適しているか否かの情報に基づいて、指定された場所が音声認識に適していないと判定した場合に、指定された場所に近い音声認識に適した場所の情報を出力する
    請求項23から請求項30のうちのいずれか1項に記載の音声認識支援方法。
  32. コンピュータに、
    場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶させる記憶処理、および
    認識対象の音声を入力する場所とされる場所情報が指定された場合に、前記記憶装置に記憶されている前記指定された場所についての音声認識結果の精度を示す情報を出力する場所認識結果精度情報出力処理
    を実行させる音声認識支援プログラム。
  33. コンピュータに、
    場所を示す場所情報と、前記場所についての音声認識結果の精度を示す情報とを対応づけて所定の記憶装置に記憶させる記憶処理、および
    前記記憶装置に対応づけて記憶されている場所情報と音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理
    を実行させる音声認識支援プログラム。
  34. コンピュータに、
    認識対象の音声を入力する場所とされる場所情報が入力された場合に、前記場所情報を所定のサーバ装置に送信して、前記場所情報と対応づけられている前記場所についての音声認識結果の精度を示す情報を受信する受信処理、および
    前記場所情報と、前記受信した前記場所についての音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理
    を実行させる音声認識支援プログラム。
  35. コンピュータに、
    認識対象の音声を入力する場所とされる場所情報が入力された場合に、入力された場所情報が示す場所で入力された音声に対する音声認識結果の精度を示す情報を収集する収集処理、および
    前記場所情報と、前記収集された音声認識結果の精度を示す情報とに基づいて、認識対象の音声を入力する場所として指定された場所が音声認識に適しているか否かの情報を出力する音声認識場所適否情報出力処理
    を実行させる音声認識支援プログラム。
JP2010239928A 2010-10-26 2010-10-26 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム Expired - Fee Related JP5370335B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010239928A JP5370335B2 (ja) 2010-10-26 2010-10-26 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010239928A JP5370335B2 (ja) 2010-10-26 2010-10-26 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2012093508A JP2012093508A (ja) 2012-05-17
JP5370335B2 true JP5370335B2 (ja) 2013-12-18

Family

ID=46386905

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010239928A Expired - Fee Related JP5370335B2 (ja) 2010-10-26 2010-10-26 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5370335B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6457154B1 (ja) * 2017-03-31 2019-01-23 株式会社オプティム 音声認識補正システム、方法及びプログラム
US20210201929A1 (en) * 2018-05-31 2021-07-01 Sony Corporation Information processing apparatus, information processing method, and program

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675588A (ja) * 1992-08-27 1994-03-18 Fujitsu Ltd 音声認識装置
JP2907728B2 (ja) * 1994-08-10 1999-06-21 富士通テン株式会社 音声処理装置
JP4475380B2 (ja) * 2002-05-15 2010-06-09 パイオニア株式会社 音声認識装置及び音声認識プログラム
JP4257491B2 (ja) * 2002-11-08 2009-04-22 ソニー株式会社 音声認識装置
JP2005084253A (ja) * 2003-09-05 2005-03-31 Matsushita Electric Ind Co Ltd 音響処理装置、方法、プログラム及び記憶媒体
JP2005114964A (ja) * 2003-10-07 2005-04-28 Xanavi Informatics Corp 音声認識方法および音声認識処理装置
JP4040573B2 (ja) * 2003-12-12 2008-01-30 キヤノン株式会社 音声認識装置および方法
JP2005227555A (ja) * 2004-02-13 2005-08-25 Renesas Technology Corp 音声認識装置
JP4684739B2 (ja) * 2005-05-13 2011-05-18 クラリオン株式会社 音声処理装置
JP2009145924A (ja) * 2006-03-27 2009-07-02 Pioneer Electronic Corp 話者認識システム及びコンピュータプログラム
JP4850640B2 (ja) * 2006-09-06 2012-01-11 公益財団法人鉄道総合技術研究所 鉄道設備保守検査支援システム及びプログラム
JP2008242067A (ja) * 2007-03-27 2008-10-09 Advanced Telecommunication Research Institute International 音声認識装置、音声認識システムおよび音声認識方法
JP2010191223A (ja) * 2009-02-18 2010-09-02 Seiko Epson Corp 音声認識方法、携帯端末及びプログラム。

Also Published As

Publication number Publication date
JP2012093508A (ja) 2012-05-17

Similar Documents

Publication Publication Date Title
US11349991B2 (en) Systems and methods to present voice message information to a user of a computing device
US11392970B2 (en) Administering a digital survey over voice-capable devices
CN105448292B (zh) 一种基于场景的实时语音识别系统和方法
JP6689515B2 (ja) ユーザ地理的ロケーションのタイプを識別するための方法および装置
US20110295603A1 (en) Speech recognition accuracy improvement through speaker categories
CN106572272A (zh) 一种ivr语音菜单确定方法及装置
CN103348659A (zh) 用于识别处于相似声音环境中的移动装置的方法和设备
US20140379709A1 (en) Method and System for Name Pronunciation Guide Services
US20130066634A1 (en) Automated Conversation Assistance
US10192240B1 (en) Method and apparatus of requesting customized location information at a mobile station
CN112487381A (zh) 身份认证方法、装置、电子设备及可读存储介质
EP1875730A1 (en) Method and system for searching and ranking entries stored in a directory
KR100920442B1 (ko) 휴대 단말기에서 정보 검색 방법
JP5370335B2 (ja) 音声認識支援システム、音声認識支援装置、利用者端末、方法およびプログラム
KR20130064447A (ko) 사용자의 성향 유사도를 이용한 검색 결과 제공 서버 및 방법, 그리고 단말
KR100803900B1 (ko) 음성 인식 ars 서비스 방법 및 시스템
CN109903006A (zh) 楼盘的报备方法、装置、设备及计算机可读存储介质
CN110797014A (zh) 一种语音识别方法、装置及计算机存储介质
US11468116B2 (en) Place search by audio signals
CN110288272B (zh) 数据处理方法、装置、电子设备及存储介质
CN103250437A (zh) 用于输送联系人标识数据的集合到用户设备的服务器、用于其的方法、用户设备、计算机程序及计算机程序产品
JP6457154B1 (ja) 音声認識補正システム、方法及びプログラム
US20130173260A1 (en) Device for assessing accuracy of statements and method of operation
CN111161706A (zh) 交互方法、装置、设备和系统
KR100574007B1 (ko) 음성 인식 기반의 개인별 전화국 서비스 제공 시스템 및 그 방법, 상기 방법을 실행하기 위한 프로그램이 기록된 기록매체

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121026

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130820

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130902

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees