JP2009237385A - 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム - Google Patents
音声文字変換装置、音声文字変換方法及び音声文字変換プログラム Download PDFInfo
- Publication number
- JP2009237385A JP2009237385A JP2008085110A JP2008085110A JP2009237385A JP 2009237385 A JP2009237385 A JP 2009237385A JP 2008085110 A JP2008085110 A JP 2008085110A JP 2008085110 A JP2008085110 A JP 2008085110A JP 2009237385 A JP2009237385 A JP 2009237385A
- Authority
- JP
- Japan
- Prior art keywords
- information
- character
- character information
- input
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【解決手段】属性毎辞書情報記憶部150は、端末に表示する画面情報の入力項目の属性毎に辞書情報を記憶する。音声情報入力部110は、音声情報を入力する。属性情報取得部130は、画面情報の入力項目のうち、カーソルが合わされている入力項目の属性を取得する。文字情報取得部140は、属性情報取得部130が取得した属性用の辞書情報に基づき、音声情報入力部110が入力した音声情報に対応する文字情報へ変換することにより、音声情報を認識する。
【選択図】図2
Description
また、上記音声文字変換装置や、ユーザを特定する装置をコールセンターシステムへ応用した例がある(特許文献2,3参照)。
この発明は、例えば、音声認識の精度を高くすることを目的とする。また、例えばコールセンター等で、オペレータとユーザとが音声情報を入力することにより、契約書等の電子書類を作成することを目的とする。
入力項目の属性毎に、第1の文字情報と第2の文字情報とを対応付けした辞書情報を記憶装置に記憶する属性毎辞書情報記憶部と、
文字情報を入力して記憶装置に記憶する情報入力部と、
上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記属性情報取得部が取得した属性情報に対応する辞書情報を検索して、上記情報入力部が入力した文字情報と一致する第2の文字情報に対応する第1の文字情報を処理装置により取得する文字情報取得部と
を備えることを特徴とする。
ことを特徴とする。
上記文字情報取得部は、上記二の文字情報を第1の文字情報として取得した場合、上記二の文字情報に関連する上記一の文字情報も第1の文字情報として取得する
ことを特徴とする。
記憶装置に記憶された所定の情報を音声情報として出力する音声出力部と、
上記音声出力部が上記所定の情報の出力を終了すると、所定の確認情報の入力を処理装置により要求する確認情報要求部とを備え、
上記情報入力部は、上記確認情報要求部が要求に対して入力された音声情報を変換して生成した文字情報を入力し、
上記文字情報取得部は、上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記確認情報用の辞書情報に基づき、上記情報入力部が入力した文字情報と一致する第2の文字情報に対応する第1の文字情報を取得し、
上記音声文字変換装置は、さらに、
上記文字情報取得部が取得した第1の文字情報を確認情報として、所定の端末へ通信装置を介して送信する送信部
を備えることを特徴とする。
処理装置が、文字情報を入力する情報入力ステップと、
処理装置が、入力項目の属性毎に、予め記憶装置に記憶した第1の文字情報と第2の文字情報とを対応付けした辞書情報のうち、上記属性情報取得ステップで取得した属性情報に対応する辞書情報を検索して、上記情報入力ステップで入力した文字情報と一致する第2の文字情報に対応する第1の文字情報を取得する文字情報取得ステップと
を備えることを特徴とする。
文字情報を入力する情報入力処理と、
入力項目の属性毎に、第1の文字情報と第2の文字情報とを対応付けした辞書情報のうち、上記属性情報取得処理で取得した属性情報に対応する辞書情報を検索して、上記情報入力処理で入力した文字情報と一致する第2の文字情報に対応する第1の文字情報を取得する文字情報取得処理と
をコンピュータに実行させることを特徴とする。
この実施の形態では、入力項目毎に辞書情報を持つ音声文字変換装置100について説明する。
ユーザは、アプリケーション10の所定の入力項目(入力欄)にカーソルを合わせて、マイク等の入力装置から音声により情報を入力する。例えば、金額入力欄にカーソルを合わせて、「10万」と入力する。この場合、音声文字変換装置100は、アプリケーション10からカーソルがある入力項目の属性情報を取得する。ここでは、金額入力欄の属性情報として、「数値属性」を取得する。また、音声文字変換装置100は、ユーザがマイク等の入力装置から入力した音声情報を取得する。ここでは、「10万」を示す音声情報「ジュウマン」を取得する。そして、音声文字変換装置100は、アプリケーション10から取得した属性情報により使用する辞書を決定して、決定した辞書により取得した音声情報を文字情報へ変換して、認識結果としてアプリケーション10へ返す。ここでは、「数値属性」に対応する数値認識辞書を使用して、「ジュウマン」という音声情報を「10万」という文字情報へ変換してアプリケーション10へ返す。すると、アプリケーション10は、音声文字変換装置100から返された「10万」という文字情報を金額入力欄に設定する。
このように、音声文字変換装置100は、入力項目毎に辞書情報を持ち、入力しようとしている項目に合わせた辞書情報を使用して音声情報を文字情報へ変換する。一般に、辞書情報に登録されている語数が少ないほどヒット率(意図した文字情報へ音声情報が変換される確率)は高くなる。入力項目毎に辞書情報を持つことで、使用する辞書情報に登録された語数を減らすことができるとともに、的確な単語だけを登録しておくことができる。そのため、音声文字変換装置100によればヒット率を高くすることができる。つまり、音声認識精度を高くすることができる。
音声文字変換装置100は、音声情報入力部110、音声認識部120、属性情報取得部130、文字情報取得部140、属性毎辞書情報記憶部150を備える。
音声情報入力部110は、アプリケーション10を使用するユーザが出力した所定の音声情報を処理装置により入力して記憶装置に記憶する。
音声認識部120は、音声情報入力部110が取得した音声情報を変換して文字情報を処理装置により生成する。音声認識部120は、言語モデルに従い、音声情報をその音を示す文字情報へ変換する。例えば、「10」という数値の読み方として、「ジュウ」や「イチゼロ」等がある。この場合、音声認識部120は、ユーザが「10」という数値を「ジュウ」という読みで発音して入力した音声情報を「ジュウ」という文字情報に変換する。一方、ユーザが「10」という数値を「イチゼロ」という読みで発音して入力した音声情報を「イチゼロ」という文字情報に変換する。
属性情報取得部130は、アプリケーション10により所定の端末に表示された複数の入力項目のうち、現在カーソルがある入力項目の属性を示す属性情報をアプリケーション10から処理装置により取得して記憶装置に記憶する。つまり、属性情報取得部130は、現在入力しようとしている入力項目の属性情報を取得する。属性とは、例えば、数値、住所、人名等のその入力項目に入力される情報の性質を示す情報である。
文字情報取得部140は、後述する属性毎辞書情報記憶部150が記憶した辞書情報のうち、属性情報取得部130が取得した属性情報が示す属性に対応する辞書情報に基づき、音声認識部120が変換して生成した文字情報を処理装置により他の文字情報へ変換して、認識結果としてアプリケーション10へ返す。例えば、上記例であれば、文字情報取得部140は、「ジュウ」や「イチゼロ」という文字情報を、「10」という文字情報へ変換して「10」という文字情報をアプリケーション10へ返す。
属性毎辞書情報記憶部150は、入力項目の属性毎に、第1の文字情報と第2の文字情報とを対応付けした辞書情報を記憶装置に記憶する。例えば、図2では、属性毎辞書情報記憶部150は、数値を入力する入力項目に対しては数値認識辞書、住所を入力する入力項目に対しては住所認識辞書、人名を入力する入力項目に対しては人名認識辞書等を記憶する。ここで、第1の文字情報とは、変換後の文字情報であり、文字情報取得部140が認識結果としてアプリケーション10へ返す文字情報である。第2の文字情報とは、音声認識部120が生成した文字情報と比較される文字情報であり、第1の文字情報の読みに当たる文字情報である。つまり、上記例であれば、第1の文字情報とは、「10」であり、第2の文字情報とは、「ジュウ」、「イチゼロ」である。
図3に示す音声文字変換装置100は、図2に示す音声文字変換装置100の機能のうち、言語モデルに従い音声情報をその音を示す文字情報へ変換する機能を備えず、音声認識装置101がその機能を備えている。つまり、言語モデルに従い音声情報をその音を示す文字情報へ変換する機能を外出しして、音声認識装置101に持たせている。つまり、音声認識装置101に、音声情報入力部110と音声認識部120とを持たせている。そして、音声文字変換装置100の情報取得部160は、音声認識装置101の音声認識部120が音声情報を変換して生成した文字情報を処理装置により入力して記憶装置に記憶する。その他は、図2に示す音声文字変換装置100と同様である。
画面情報には、金額入力欄、住所入力欄、氏名入力欄の3つの入力項目がある。属性毎辞書情報記憶部150は、画面情報の3つの入力項目それぞれに対応する数値認識辞書、住所認識辞書、人名認識辞書の3つの辞書情報を記憶している。
各辞書には複数の第1の文字情報が記憶され、それぞれの第1の文字情報に対して1つ又は複数の第2の文字情報が記憶されている。例えば、数値認識辞書であれば、第1の文字情報「1」に対して、第2の文字情報「イチ」が、第1の文字情報「10」に対して、第2の文字情報「ジュウ」、「イチゼロ」等が記憶されている。
これは、例えば、「神奈川県横浜市」という住所を入力する場合に、「神奈川県」という県名を入力して、さらに「横浜市」という市名を入力する場合と、県名を入力することなく「横浜市」という市名を入力する場合とが考えられる。そこで、「神奈川県」という県名を入力して、さらに「横浜市」という市名を入力された場合には、入力された通り、まず「神奈川県」という文字情報を取得して認識情報として返し、次に「横浜市」という文字情報を取得して認識情報として返す。一方、県名を入力することなく「横浜市」という市名を入力された場合には、「横浜市」という文字情報を得る場合に、その親の階層の文字情報である「神奈川県」も合わせて取得する。そして、「神奈川県横浜市」という文字情報を認識情報として返す。つまり、親の第1の文字情報が取得されずに、子の第1の文字情報が取得された場合には、子の第1の文字情報と合わせて親の第1の文字情報を取得する。
なお、上記説明では、階層構造とすることで複数の第1の文字情報を関連付けし、子の第1の文字情報が取得された場合に、親の第1の文字情報も合わせて取得するとした。しかし、関連付けする構造は階層構造に限らない。例えば、2つの第1の文字情報を対等の関係で関連付けしておき、一方が取得される場合には、他方も取得するようにしてもよい。
つまり、属性毎辞書情報記憶部150は、複数の第1の文字情報のある第1の文字情報である一の文字情報と、一の文字情報とは異なる第1の文字情報である二の文字情報とを関連させて記憶する。そして、文字情報取得部140は、二の文字情報を第1の文字情報として取得した場合、二の文字情報に関連する一の文字情報も第1の文字情報として取得して、一の文字情報とニの文字情報とを認識情報として返す。
図5では、HTMLを拡張したプログラムコードによる実装例と、そのプログラムコードにより表示されるシート(画面情報)とを示す。
HTMLを拡張したプログラムコードによる実装例では、画面情報として表示するためのタグ(例えば、SELECTタグ、INPUTタグ)と、文字情報の変換を行うタグ(VOICEタグ)とが混在している。つまり、図5に示す実装例では、アプリケーション10の中に音声文字変換装置100を組み込んでいる。画面情報として表示するタグのうち、情報を入力するためのタグは、文字情報の変換を行うタグとタグ名(入力タグ1、入力タグ2、入力タグ3)により対応している。例えば、SELECTタグであれば、その名称である「入力タグ1」により、同じ名称が付けられたVOICEタグと対応付けされている。
つまり、シートにおいて入力タグ1が選択されると、プログラムコードにおいて入力タグ1の名称が付けられたVOICEタグが実行される。ここで、VOICEタグには、その入力項目に対応する辞書情報が記述され、入力された音声情報が変換され生成された文字情報(例えば、「ジュウ」)を認識情報(例えば、「10」)へ変換する。なお、プログラムコードでは、音声情報が変換され生成された文字情報をアルファベットで表しているが、上記説明と同様にカタカナであってもよい。
例えば、入力タグ1のVOICEタグでは、「1万」、「10万」、「20万」が第1の文字情報として登録されている。そして、各第1の文字情報に対して、第2の文字情報が登録されている。例えば、第1の文字情報「10万」については、「zyuumann」、「ichizero」、「tou」が第2の文字情報として登録されている。また、さらに、汎用辞書「suu」が第2の文字情報として登録されている。汎用辞書「suu」は、一般的な数値属性の読みを集めた辞書情報であって、他のXMLファイル等に記憶された外部辞書である。つまり、画面情報として表示するためのタグと辞書情報を混在させてプログラムコードを作成すると、プログラムコードが煩雑になるおそれがある。そこで、そのプログラムコードで特に必要な第2の文字情報はプログラムコードに直に記載し、その他の一般的な第2の文字情報は外部辞書を読み込むようにしている。これにより、プログラムコードが煩雑になることはなく、また特に必要な第2の文字情報はプログラムコードに直に記載されているため処理速度も速い。
また、入力タグ2に対応するVOICEタグは、図4に基づき説明したように、階層関係を有している。つまり、県名を入力することなく、市名(例えば、「横浜市」)を入力すると、「神奈川県横浜市」が認識情報として返される。
JAVAScript(登録商標)やAJAXによる実装例もHTMLを拡張したプログラムコードによる実装例と同様に、図4に示す画面情報として表示するためのコード(input type・・・)と、文字情報の変換を行う関数(function inputtag1等)とが混在している。つまり、画面情報で入力項目が選択されると、選択された入力項目に対応する関数が呼ばれる。そして、その関数では、上記VOICEタグと同様の処理が実行される。
例えば、入力タグ1が選択されると、inputtag1関数が実行される。inputtag1関数には、辞書情報が直に記載されている(辞書配列は省略して記載している)。また、入力タグ2が選択されると、inputtag2関数が実行される。inputtag2関数では、XMLファイル等の外部ファイルに記載された外部辞書を呼ぶ。また、入力タグ3が選択されると、inputtag3関数が実行される。inputtag3関数では、文字情報取得部140による文字情報変換処理自体を他のプログラムを呼び出して実行する。
例えば、タグ名称に「JUUSHO」と付けた場合には、「住所認識辞書」を備えるVOICEタグと関連付けされるように予め設定しておく。このようにすることにより、住所の入力欄を作成する際、そのタグ名称に「JUUSHO」と付けるだけで、自動的に「住所認識辞書」を備えるVOICEタグと関連付けされたプログラムコードが生成される。
また、SELECTタグのような選択式のタグであれば、選択対象として登録された単語を認識対象(第1の文字情報)とする辞書を生成するようにしておいてもよい。そして、第1の文字情報に対する第2の文字情報は、例えば、一般的な辞書から第1の文字情報をキーとして検索して取得するようにしてもよい。なお、認識対象が判別できない場合には、一般的な汎用辞書を設定するとしておいてもよい。
また、辞書情報に登録された単語(第1の文字情報)を関連付けしておくことにより、入力情報を省略して入力した場合にも、必要な入力情報を補うことができる。
また、辞書情報を文書表示プログラムの中に埋め込むことにより、変換処理の高速化を図ることができる。一方、使用される確率の低い単語(第2の文字情報)については外部辞書とすることで、プログラムコードが複雑になることを防止できる。
この実施の形態では、実施の形態1に係る音声文字変換装置100を応用して、ユーザとオペレータとの間の会話を音声情報として取得することにより、電子書類を作成する方法について説明する。
ユーザとオペレータとは、例えば電話等により会話をする。音声文字変換装置100は、ユーザとオペレータとの会話を音声情報として取得して電子書類を作成する。音声文字変換装置100は、オペレータが「〜を教えてください」と言った場合に、「〜」に当たる入力項目へカーソルを合わせる。例えば、オペレータが「ご住所を教えてください」と言った場合には、「住所」の入力欄へカーソルを合わせる。すると、音声文字変換装置100は、実施の形態1で説明したように、カーソルが合わされた入力項目の属性情報を取得して、使用する辞書情報を切り替える。そして、オペレータからの「〜を教えてください」に対して、ユーザが「○○です」と答えた場合、音声文字変換装置100は「○○」を認識して、カーソルを合わせた入力欄へ記入する。これをすべての項目について繰り返すことにより、電子書類の作成ができる。
このように、音声文字変換装置100は、オペレータから入力された音声情報を認識して入力項目を切り替え、ユーザから入力された音声情報を認識して入力項目へ情報を記入する。そのため、カーソルの切り替え等の端末操作をすることなく、ユーザとオペレータとは単に会話をするだけで、電子書類の作成をすることができる。
この実施の形態に係る音声文字変換装置100は、実施の形態1に係る音声文字変換装置100の機能に加え、さらに、項目情報取得部170、項目識別辞書情報記憶部180を備える。また、音声情報入力部110は、第1の音声情報入力部111、第2の音声情報入力部112を備える。
第1の音声情報入力部111は、オペレータが出力した音声情報(第1の音声情報)をオペレータ端末11を介して処理装置により入力して記憶装置に記憶する。
第2の音声情報入力部112は、ユーザが出力した音声情報(第2の音声情報)をユーザ端末12を介して処理装置により入力して記憶装置に記憶する。
項目情報取得部170は、後述する項目識別辞書情報記憶部180が記憶した項目識別辞書情報に基づき、第1の音声情報入力部111が入力した音声情報を音声認識部120が変換して生成した文字情報と一致する項目文字情報を検索して、検索した項目文字情報に対応する項目識別情報を処理装置により取得する。
項目識別辞書情報記憶部180は、複数の入力項目の入力項目毎に、その入力項目を示す項目識別情報と所定の文字情報である項目文字情報とを対応付けした項目識別辞書情報を記憶装置に記憶する。項目識別辞書情報記憶部180は、例えば、金額を入力する入力項目であれば、その項目識別情報「金額入力欄」と、「金額」、「お金」、「値段」等の文字情報とを対応付けして記憶する。
また、属性情報取得部130は、項目情報取得部170が取得した項目識別情報が示す入力項目の属性情報を取得する。文字情報取得部140は、属性毎辞書情報記憶部150が記憶した辞書情報のうち、属性情報取得部130が取得した属性情報に対応する辞書情報を検索して選択する。文字情報取得部140は、選択した辞書情報に基づき、第2の音声情報入力部112が入力した音声情報を音声認識部120が変換して生成した文字情報に一致する第2の文字情報に対応する第1の文字情報を取得する。そして、文字情報取得部140は、取得した第1の文字情報を入力項目に記述(記憶)する。
図9に示す音声文字変換装置100は、図3に示す音声文字変換装置100と同様に、図8に示す音声文字変換装置100の機能のうち、言語モデルに従い音声情報をその音を示す文字情報へ変換する機能を外出しして、音声認識装置101に持たせている。
ここで、情報取得部160は、第1の情報取得部161、第2の情報取得部162を備える。第1の情報取得部161は、第1の音声情報入力部111が入力した音声情報を音声認識部120が変換して生成した文字情報を処理装置により入力して記憶装置に記憶する。第2の情報取得部162は、第2の音声情報入力部112が入力した音声情報を音声認識部120が変換して生成した文字情報を処理装置により入力して記憶装置に記憶する。
その他は、図8に示す音声文字変換装置100と同様である。
また、項目識別辞書情報記憶部180は、入力項目の順序を記憶しておき、「次へ」等の音声情報が入力された場合に、項目情報取得部170は現在カーソルが合わせられている入力項目の次の入力項目の項目識別情報を取得するとしてもよい。
また、オペレータはオペレータ端末11により、ボタン操作等で入力項目を変更してもよい。また、入力された情報(第1の文字情報)を訂正してもよい。
この実施の形態では、ユーザにより入力された音声情報とオペレータにより入力された音声情報との2つの音声情報を使うことで、音声情報の認識精度を高める方法について説明する。
図10では、オペレータが住所はどこかユーザに質問した場合を例として示す。住所を聞かれると、ユーザが「東京都」ですと答えたとする。すると、音声文字変換装置100は、ユーザが答えた「東京都」ですという音声情報を入力して、その音を示す文字情報へ変換する。ここでは、「とうひょうと」ですと変換されたとする。一方、オペレータはユーザが答えた内容を確認するため「東京都」ですねと復唱する。すると、音声文字変換装置100は、オペレータが復唱した「東京都」ですねという音声情報を入力して、その音を示す文字情報へ変換する。ここでは、「とおきょうと」ですねと変換されたとする。そして、音声文字変換装置100は、2つの音声情報を変換して生成した2つの文字情報「とうひょうと」と「とおきょうと」とを比較する。すると、「う」と「お」、「ひ」と「き」という2箇所の文字情報が不一致であることがわかる。そこで、この不一致の文字情報について、ユーザの音声情報から変換された文字情報とオペレータの音声情報から変換された文字情報とのどちらが確からしいか判断して、確からしい方の文字情報を採用する。例えば、ここでは、「う」と「お」についてはユーザの音声情報から変換された文字情報「う」が確からしい、「ひ」と「き」についてはオペレータの音声情報から変換された文字情報「き」が確からしいと判断したとする。つまり、「う」と「き」とを採用する。そして、「とうきょうと」という文字情報を生成する。
また、音声文字変換装置100は、音声情報から文字情報へ変換する際の規則を音声情報を入力する人毎に定めた言語モデルを、認識結果に基づき変更して、変換の確度(認識率)を高める。つまり、音声文字変換装置100は、上記例では、「とうひょうと」と変換されてしまったユーザの発音(例えば、イントネーションや音の周波数)は、このユーザの場合は「とうきょうと」と変換しなければならないことがわかる。したがって、この結果に基づき、音声文字変換装置100は、言語モデルを変更する。
このように、音声文字変換装置100は、2つの音声情報を使うことで認識率を高めるとともに、認識結果に基づき言語モデルを改善していくことでさらに認識率を高める。そのため、ユーザとオペレータとが会話を行う度に、認識率が高くなる。
この実施の形態に係る音声文字変換装置100の音声認識部120は、音声変換部121、文字情報比較部122、不一致部分決定部123、文字情報生成部124、言語モデル記憶部125、言語モデル更新部126を備える。その他は、実施の形態2に係る音声文字変換装置100と同様である。
音声変換部121は、オペレータ(第1の音声情報入力部111)が入力した第1の音声情報を上記オペレータ用の言語モデルに基づき文字情報へ処理装置により変換する。同様に、音声変換部121は、ユーザ(第2の音声情報入力部112)が入力した第2の音声情報を上記ユーザ用の言語モデルに基づき文字情報へ処理装置により変換する。また、音声変換部121は、音声情報から文字情報へ変換する場合、変換後の文字情報について1文字毎に、変換が正しい確度を処理装置により計算する。
文字情報比較部122は、音声変換部121が認識した2つの文字情報とを比較して、不一致部分を処理装置により抽出する。
不一致部分決定部123は、文字情報比較部122が比較して抽出した不一致部分の文字情報を、2つの文字情報とのいずれかの不一致部分の文字情報に処理装置により決定する。不一致部分決定部123は、音声変換部121が計算した確度に基づき、不一致部分の文字情報について1文字毎にどちらの文字情報を使用するか決定する。
文字情報生成部124は、2つの文字情報のいずれかの不一致部分を不一致部分決定部123が決定した文字情報に置き換えて、文字情報を処理装置により生成する。
言語モデル記憶部125は、音声情報を入力する人毎(つまり、ユーザ、オペレータ毎)に、音声情報を文字情報へ変換するための言語モデルを記憶装置に記憶する。
言語モデル更新部126は、文字情報生成部124が生成した文字情報と第1の音声情報とに基づき、上記オペレータの言語モデルを更新するとともに、文字情報生成部124が生成した文字情報と第2の音声情報とに基づき、上記ユーザの言語モデルを処理装置により更新する。
上述したように、言語モデル記憶部125が音声情報を入力する人毎に言語モデルを記憶して、音声変換部121が音声情報を入力した人の言語モデルに基づき、音声情報を文字情報へ変換する。つまり、いわゆる特定話者タイプの音声認識処理を行う。この場合、言語モデルがその人(音声情報を入力した人)の発音についての情報をどれだけ持っているか、つまりどれだけ学習しているかにより認識の確度が変わる。つまり、その人の発音について学習しているほど、認識の確度は高くなる。また、発音の明確さ等によっても、認識の確度が変わる。音声変換部121は、音声情報から文字情報へ変換しながら、この認識の確度を文字毎に計算する。
例えば、図12に示す例では、ユーザは新規の顧客で、言語モデルは未学習状態であり、オペレータは習熟度の高いオペレータで、言語モデルの学習も進んでいる状態であるとする。そのため、ユーザが入力した音声情報を変換した「とうひょうと」という文字情報は、全体的に認識確度が低い。一方、オペレータが入力した音声情報を変換した「とおきょうと」という文字情報は、全体的に認識確度が高い。しかし、オペレータが入力した音声情報を変換した「とおきょうと」の「お」は発音が不明確であったため、認識確度が低い。ここでは、文字情報比較部122が2つの文字情報を比較して抽出した不一致部分の文字情報の認識確度は、ユーザが入力した音声情報を変換した「とうひょうと」の「う」が60%、「ひ」が30%、オペレータが入力した音声情報を変換した「とおきょうと」の「お」が50%、「き」が90%であったとする。
不一致部分決定部123は、「う」(60%)と「お」(50%)を比較して、認識確度の高い「う」を採用し、「ひ」(30%)と「き」(90%)を比較して、認識確度の高い「き」を採用する。
文字情報生成部124は、例えば、「とうひょうと」の不一致部分である「う」と「ひ」とをそれぞれ、「う」と「き」とに置き換えて、「とうきょうと」という文字情報を生成する。
また、言語モデル更新部126は、文字情報生成部124が生成した「とうきょうと」という文字情報と、ユーザの発音(とうひょうと)とに基づき、ユーザの言語モデルを更新する。また、言語モデル更新部126は、文字情報生成部124が生成した「とうきょうと」という文字情報と、オペレータの発音(とおきょうと)とに基づき、オペレータの言語モデルを更新する。
また、2つの音声情報から生成された文字情報と、入力された音声情報とを用いて言語モデルを更新するため、ユーザとオペレータとが会話をするほど認識精度が高くなる。
なお、実施の形態1に示す文字情報の変換処理と合わせて実施することにより、音声情報から認識結果を導く精度をさらに高くすることができる。
この実施の形態では、上記実施の形態で説明した音声文字変換装置100をコールセンターシステムに応用した例について説明する。
例えば、金融業等において商品を販売する際に、事前にその商品のリスク等の所定の説明をユーザへ行うことが義務付けされている場合がある。コールセンターにおいて、ユーザから商品の購入の申し出がされた場合、オペレータは義務付けされている説明を行う。しかし、義務付けされている説明は商品毎に定められたものであるため、オペレータは単にその説明を読み上げしているに過ぎない。
そこで、その説明をオペレータに代わり音声文字変換装置100が音声により行う。音声文字変換装置100は、音声による説明が終了すると、ユーザに説明内容を了解してもらえるか否か確認する。この際、ユーザはオペレータと会話する場合と同様、音声で了解するか否かを入力する。すると、音声文字変換装置100は、確認認識辞書を使って入力された音声情報を認識して、オペレータへ認識結果を送信する。オペレータは認識結果により、ユーザが説明を了解したか否かを知ることができる。そして、了解している場合には、オペレータはユーザと通話して商品の購入のための処理へ進む。
また、音声文字変換装置100は、音声による説明中もユーザからの音声の入力を受け付ける。例えば、ユーザが説明を一時停止して欲しい場合には、その旨を音声により入力する。すると、音声文字変換装置100は割込認識辞書を使って入力された音声を認識して、説明を一時停止する。また、ユーザが説明内容について質問がある場合も同様にその旨を音声により入力する。すると、音声文字変換装置100は割込認識辞書を使って入力された音声を認識して、認識結果をオペレータへ送信する。オペレータは、認識結果により、ユーザが説明に質問があることを知ることができる。そこで、オペレータはユーザと通話して質問に対応することができる。
このように、音声文字変換装置100がオペレータに代わって音声により説明を行い、ユーザからの応答を音声により受付する。そのため、オペレータは、音声文字変換装置100が説明を行っている間、他の作業をすることができ作業効率を高くすることができる。また、ユーザにとっては、オペレータから説明を受けているのと同様の説明を受けることができる。さらに、ユーザは、質問がある場合等にも機械の操作ではなく、オペレータが対応しているときと同様に音声により質問があることを伝えることができ、不慣れな機械操作を行う必要がない。
この実施の形態に係る音声文字変換装置100は、実施の形態1に係る音声文字変換装置100の機能に加え、音声出力部190、確認情報要求部200、送信部210を備える。
音声出力部190は、記憶装置に記憶された所定の説明情報を音声情報として出力する。音声出力部190は、予め音声情報として記憶された説明情報をそのまま音声情報として出力してもよいし、文字情報等として記憶された説明情報を音声情報へ変換して出力してもよい。
確認情報要求部200は、音声出力部190が説明情報の出力を終了すると、所定の確認情報の入力を処理装置により要求する。つまり、確認情報要求部200は、説明した内容を了解したか否かの入力を要求する。これに対して、音声情報入力部110は、ユーザが入力した確認情報を音声情報として入力し、音声認識部120が文字情報へ変換する。そして、文字情報取得部140は、属性毎辞書情報記憶部150が記憶した辞書情報のうち、確認情報用の辞書情報である確認認識辞書に基づき、音声認識部120が変換した文字情報と一致する第2の文字情報に対応する第1の文字情報を取得する。例えば、第1の文字情報としては、「了解」、「取消」等が登録されている。また、第1の文字情報「了解」に対する第2の文字情報としては「リョウカイ」、「カクニン」等が登録され、第1の文字情報「取消」に対する第2の文字情報としては「トリケシ」、「キャンセル」等が登録されている。
送信部210は、文字情報取得部140が取得した第1の文字情報を確認情報として、オペレータの端末へ通信装置を介して送信する。
また、ユーザからの入力は音声情報とともに、ボタン操作等による入力も受付してもよい。
また、説明は音声だけでなく、合わせて映像等をユーザの端末へ表示してもよい。
図15に示す双方向説明確認プログラムでは、説明文をユーザの端末へ表示するとともに、音声出力する。同様に、確認要求する場面では、確認/取消ボタンをユーザの端末へ表示するとともに、音声出力して、ボタンによる確認/取消の入力とともに、音声による確認/取消の入力を受け付ける。
また、表示するタグ(例えば、INPUTタグ)と、音声出力のタグ(VOICEタグ)とがタグ名称によって関連付けされている。
なお、図15では、HTMLを拡張したプログラムコードにより実装例を示したが、図6に基づき説明したようなJAVAScript(登録商標)やAJAXにより実装しても構わない。
また、ユーザは音声による操作のみで足りるため、ユーザにとっても不便となることはない。
また、音声文字変換装置100は設定された説明文を脚色することなく出力するため、オペレータによる説明よりも的確に内容を伝えることができる。
図16は、音声文字変換装置100のハードウェア構成の一例を示す図である。
図16に示すように、音声文字変換装置100は、プログラムを実行するCPU911(Central・Processing・Unit、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、LCD901(Liquid Crystal Display)、キーボード902、通信ボード915、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。
ファイル群924には、上記の説明において音声文字変換装置100が扱う情報やデータや信号値や変数値やパラメータが、「ファイル」や「データベース」の各項目として記憶される。つまり、「属性毎辞書情報記憶部150」、「項目識別辞書情報記憶部180」が記憶した情報が、「ファイル」や「データベース」の各項目として記憶される。「ファイル」や「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU911によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPU911の動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPU911の動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、上記の説明におけるフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、その他光ディスク等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
Claims (6)
- 入力項目の属性を示す属性情報を取得して記憶装置に記憶する属性情報取得部と、
入力項目の属性毎に、第1の文字情報と第2の文字情報とを対応付けした辞書情報を記憶装置に記憶する属性毎辞書情報記憶部と、
文字情報を入力して記憶装置に記憶する情報入力部と、
上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記属性情報取得部が取得した属性情報に対応する辞書情報を検索して、上記情報入力部が入力した文字情報と一致する第2の文字情報に対応する第1の文字情報を処理装置により取得する文字情報取得部と
を備えることを特徴とする音声文字変換装置。 - 上記情報入力部は、所定の音声情報が変換され生成された文字情報を入力する
ことを特徴とする請求項1に記載の音声文字変換装置。 - 上記属性毎辞書情報記憶部は、入力項目の属性毎に複数の第1の文字情報を記憶するとともに、上記複数の第1の文字情報のある第1の文字情報である一の文字情報と、上記一の文字情報とは異なる第1の文字情報である二の文字情報とを関連させて記憶し、
上記文字情報取得部は、上記二の文字情報を第1の文字情報として取得した場合、上記二の文字情報に関連する上記一の文字情報も第1の文字情報として取得する
ことを特徴とする請求項1又は2に記載の音声文字変換装置。 - 上記音声文字変換装置は、さらに、
記憶装置に記憶された所定の情報を音声情報として出力する音声出力部と、
上記音声出力部が上記所定の情報の出力を終了すると、所定の確認情報の入力を処理装置により要求する確認情報要求部とを備え、
上記情報入力部は、上記確認情報要求部が要求に対して入力された音声情報を変換して生成した文字情報を入力し、
上記文字情報取得部は、上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記確認情報用の辞書情報に基づき、上記情報入力部が入力した文字情報と一致する第2の文字情報に対応する第1の文字情報を取得し、
上記音声文字変換装置は、さらに、
上記文字情報取得部が取得した第1の文字情報を確認情報として、所定の端末へ通信装置を介して送信する送信部
を備えることを特徴とする請求項1から3までのいずれかに記載の音声文字変換装置。 - 処理装置が、入力項目の属性を示す属性情報を取得する属性情報取得ステップと、
処理装置が、文字情報を入力する情報入力ステップと、
処理装置が、入力項目の属性毎に、予め記憶装置に記憶した第1の文字情報と第2の文字情報とを対応付けした辞書情報のうち、上記属性情報取得ステップで取得した属性情報に対応する辞書情報を検索して、上記情報入力ステップで入力した文字情報と一致する第2の文字情報に対応する第1の文字情報を取得する文字情報取得ステップと
を備えることを特徴とする音声文字変換方法。 - 入力項目の属性を示す属性情報を取得する属性情報取得処理と、
文字情報を入力する情報入力処理と、
入力項目の属性毎に、第1の文字情報と第2の文字情報とを対応付けした辞書情報のうち、上記属性情報取得処理で取得した属性情報に対応する辞書情報を検索して、上記情報入力処理で入力した文字情報と一致する第2の文字情報に対応する第1の文字情報を取得する文字情報取得処理と
をコンピュータに実行させることを特徴とする音声文字変換プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008085110A JP4815463B2 (ja) | 2008-03-28 | 2008-03-28 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008085110A JP4815463B2 (ja) | 2008-03-28 | 2008-03-28 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009237385A true JP2009237385A (ja) | 2009-10-15 |
JP4815463B2 JP4815463B2 (ja) | 2011-11-16 |
Family
ID=41251371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008085110A Expired - Fee Related JP4815463B2 (ja) | 2008-03-28 | 2008-03-28 | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4815463B2 (ja) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60147799A (ja) * | 1984-01-13 | 1985-08-03 | 松下通信工業株式会社 | 音声認識方法 |
JPS62180397A (ja) * | 1986-02-04 | 1987-08-07 | 日通工株式会社 | 音声パタ−ンの登録方式 |
JPH11122356A (ja) * | 1997-10-13 | 1999-04-30 | Ibm Japan Ltd | 契約業務サポートシステム、契約業務サポート方法 |
JPH11231894A (ja) * | 1998-02-18 | 1999-08-27 | Denso Corp | 音声認識装置 |
JP2000172668A (ja) * | 1998-12-02 | 2000-06-23 | Ntt Data Corp | 情報提供方法及び情報提供システム |
JP2001217935A (ja) * | 2000-01-26 | 2001-08-10 | Internatl Business Mach Corp <Ibm> | 音声認識手段を使用する自動音声応答システムおよび方法 |
JP2002162988A (ja) * | 2000-11-27 | 2002-06-07 | Canon Inc | 音声認識システム及びその制御方法、コンピュータ可読メモリ |
JP2003188995A (ja) * | 2001-12-18 | 2003-07-04 | Nec Soft Ltd | 自動音声情報伝達システム及び自動音声応答装置とプログラム |
JP2004318639A (ja) * | 2003-04-18 | 2004-11-11 | Hiroshi Kumagai | 住所録格納の記録媒体および情報端末機器 |
JP2005044103A (ja) * | 2003-07-28 | 2005-02-17 | Toshiba Corp | 文書作成装置、文書作成方法およびプログラム |
JP2006078829A (ja) * | 2004-09-10 | 2006-03-23 | Chugoku Electric Power Co Inc:The | 音声認識装置および音声認識方法 |
JP2008033879A (ja) * | 2006-06-28 | 2008-02-14 | Aioi Kiso Kenkyusho:Kk | 契約支援システム |
-
2008
- 2008-03-28 JP JP2008085110A patent/JP4815463B2/ja not_active Expired - Fee Related
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS60147799A (ja) * | 1984-01-13 | 1985-08-03 | 松下通信工業株式会社 | 音声認識方法 |
JPS62180397A (ja) * | 1986-02-04 | 1987-08-07 | 日通工株式会社 | 音声パタ−ンの登録方式 |
JPH11122356A (ja) * | 1997-10-13 | 1999-04-30 | Ibm Japan Ltd | 契約業務サポートシステム、契約業務サポート方法 |
JPH11231894A (ja) * | 1998-02-18 | 1999-08-27 | Denso Corp | 音声認識装置 |
JP2000172668A (ja) * | 1998-12-02 | 2000-06-23 | Ntt Data Corp | 情報提供方法及び情報提供システム |
JP2001217935A (ja) * | 2000-01-26 | 2001-08-10 | Internatl Business Mach Corp <Ibm> | 音声認識手段を使用する自動音声応答システムおよび方法 |
JP2002162988A (ja) * | 2000-11-27 | 2002-06-07 | Canon Inc | 音声認識システム及びその制御方法、コンピュータ可読メモリ |
JP2003188995A (ja) * | 2001-12-18 | 2003-07-04 | Nec Soft Ltd | 自動音声情報伝達システム及び自動音声応答装置とプログラム |
JP2004318639A (ja) * | 2003-04-18 | 2004-11-11 | Hiroshi Kumagai | 住所録格納の記録媒体および情報端末機器 |
JP2005044103A (ja) * | 2003-07-28 | 2005-02-17 | Toshiba Corp | 文書作成装置、文書作成方法およびプログラム |
JP2006078829A (ja) * | 2004-09-10 | 2006-03-23 | Chugoku Electric Power Co Inc:The | 音声認識装置および音声認識方法 |
JP2008033879A (ja) * | 2006-06-28 | 2008-02-14 | Aioi Kiso Kenkyusho:Kk | 契約支援システム |
Also Published As
Publication number | Publication date |
---|---|
JP4815463B2 (ja) | 2011-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6251958B2 (ja) | 発話解析装置、音声対話制御装置、方法、及びプログラム | |
CN100578614C (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
JP4416643B2 (ja) | マルチモーダル入力方法 | |
JP4680691B2 (ja) | 対話システム | |
EP3824462B1 (en) | Electronic apparatus for processing user utterance and controlling method thereof | |
US9484034B2 (en) | Voice conversation support apparatus, voice conversation support method, and computer readable medium | |
JP2019046468A (ja) | インターフェイススマートインタラクティブ制御方法、装置、システム及びプログラム | |
CN114596861A (zh) | 针对问题和回答的显示装置和方法 | |
CN101276245A (zh) | 一种输入过程中编码纠错的提示方法和系统 | |
JP2002116796A (ja) | 音声処理装置、音声処理方法及び記憶媒体 | |
AU2019201441B2 (en) | Electronic device for processing user voice input | |
JP5558284B2 (ja) | 音声認識システム、音声認識方法、および音声認識プログラム | |
KR20200080400A (ko) | 페르소나에 기반하여 문장을 제공하는 방법 및 이를 지원하는 전자 장치 | |
JP4749437B2 (ja) | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム | |
US20060095263A1 (en) | Character string input apparatus and method of controlling same | |
JP4749438B2 (ja) | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム | |
Vu et al. | GPTVoiceTasker: LLM-powered virtual assistant for smartphone | |
US20050288933A1 (en) | Information input method and apparatus | |
JP2018072508A (ja) | 音声入力装置、音声入力方法 | |
JP4815463B2 (ja) | 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム | |
JP4924148B2 (ja) | 発音学習支援装置及び発音学習支援プログラム | |
US20080256071A1 (en) | Method And System For Selection Of Text For Editing | |
CN113763961B (zh) | 一种文本处理方法及装置 | |
CN112541651B (zh) | 电子设备、发音学习方法、服务器装置、发音学习处理系统及记录介质 | |
WO2016136208A1 (ja) | 音声対話装置、音声対話システム、および、音声対話装置の制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100714 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100915 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110426 |
|
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20110517 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110527 |
|
RD15 | Notification of revocation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7435 Effective date: 20110527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20110517 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110823 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4815463 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140902 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |