JP2009237385A

JP2009237385A - 音声文字変換装置、音声文字変換方法及び音声文字変換プログラム

Info

Publication number: JP2009237385A
Application number: JP2008085110A
Authority: JP
Inventors: Nobuyuki Kobayashi; 信行小林; Hiroshi Kuwabara; 浩桑原; Tsutomu Morigaki; 努森垣
Original assignee: Mitsubishi Electric Information Systems Corp; Mitsubishi Electric Information Technology Corp
Current assignee: Mitsubishi Electric Information Systems Corp; Mitsubishi Electric Information Technology Corp
Priority date: 2008-03-28
Filing date: 2008-03-28
Publication date: 2009-10-15
Anticipated expiration: 2028-03-28
Also published as: JP4815463B2

Abstract

【課題】音声認識の精度を高くすることを目的とする。
【解決手段】属性毎辞書情報記憶部１５０は、端末に表示する画面情報の入力項目の属性毎に辞書情報を記憶する。音声情報入力部１１０は、音声情報を入力する。属性情報取得部１３０は、画面情報の入力項目のうち、カーソルが合わされている入力項目の属性を取得する。文字情報取得部１４０は、属性情報取得部１３０が取得した属性用の辞書情報に基づき、音声情報入力部１１０が入力した音声情報に対応する文字情報へ変換することにより、音声情報を認識する。
【選択図】図２

Description

本発明は、例えば、音声情報を文字情報に変換する技術に関する。

従来、音声情報が入力されると、入力された音声情報を文字情報へ変換して出力する音声文字変換装置（音声認識装置）がある。また、入力された音声情報のパターンと、ユーザの音声の特徴パターンとを比較して、ユーザを特定する装置がある（特許文献１参照）。
また、上記音声文字変換装置や、ユーザを特定する装置をコールセンターシステムへ応用した例がある（特許文献２，３参照）。
特開２００２−２７９２４５号公報特開２００６−１２６９６６号公報特開２００２−９９５５号公報

従来の音声認識技術では、音声の認識精度が低い。そのため、例えば契約書等の電子書類を作成する場合に、音声情報により各情報（個人情報等）を入力し、入力された音声情報を文字情報へ変換して書類を作成することは難しい。
この発明は、例えば、音声認識の精度を高くすることを目的とする。また、例えばコールセンター等で、オペレータとユーザとが音声情報を入力することにより、契約書等の電子書類を作成することを目的とする。

本発明に係る音声文字変換装置は、例えば、入力項目の属性を示す属性情報を取得して記憶装置に記憶する属性情報取得部と、
入力項目の属性毎に、第１の文字情報と第２の文字情報とを対応付けした辞書情報を記憶装置に記憶する属性毎辞書情報記憶部と、
文字情報を入力して記憶装置に記憶する情報入力部と、
上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記属性情報取得部が取得した属性情報に対応する辞書情報を検索して、上記情報入力部が入力した文字情報と一致する第２の文字情報に対応する第１の文字情報を処理装置により取得する文字情報取得部と
を備えることを特徴とする。

上記情報入力部は、所定の音声情報が変換され生成された文字情報を入力する
ことを特徴とする。

上記属性毎辞書情報記憶部は、入力項目の属性毎に複数の第１の文字情報を記憶するとともに、上記複数の第１の文字情報のある第１の文字情報である一の文字情報と、上記一の文字情報とは異なる第１の文字情報である二の文字情報とを関連させて記憶し、
上記文字情報取得部は、上記二の文字情報を第１の文字情報として取得した場合、上記二の文字情報に関連する上記一の文字情報も第１の文字情報として取得する
ことを特徴とする。

上記音声文字変換装置は、さらに、
記憶装置に記憶された所定の情報を音声情報として出力する音声出力部と、
上記音声出力部が上記所定の情報の出力を終了すると、所定の確認情報の入力を処理装置により要求する確認情報要求部とを備え、
上記情報入力部は、上記確認情報要求部が要求に対して入力された音声情報を変換して生成した文字情報を入力し、
上記文字情報取得部は、上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記確認情報用の辞書情報に基づき、上記情報入力部が入力した文字情報と一致する第２の文字情報に対応する第１の文字情報を取得し、
上記音声文字変換装置は、さらに、
上記文字情報取得部が取得した第１の文字情報を確認情報として、所定の端末へ通信装置を介して送信する送信部
を備えることを特徴とする。

本発明に係る音声文字変換方法は、例えば、処理装置が、入力項目の属性を示す属性情報を取得する属性情報取得ステップと、
処理装置が、文字情報を入力する情報入力ステップと、
処理装置が、入力項目の属性毎に、予め記憶装置に記憶した第１の文字情報と第２の文字情報とを対応付けした辞書情報のうち、上記属性情報取得ステップで取得した属性情報に対応する辞書情報を検索して、上記情報入力ステップで入力した文字情報と一致する第２の文字情報に対応する第１の文字情報を取得する文字情報取得ステップと
を備えることを特徴とする。

本発明に係る音声文字変換プログラムは、例えば、入力項目の属性を示す属性情報を取得する属性情報取得処理と、
文字情報を入力する情報入力処理と、
入力項目の属性毎に、第１の文字情報と第２の文字情報とを対応付けした辞書情報のうち、上記属性情報取得処理で取得した属性情報に対応する辞書情報を検索して、上記情報入力処理で入力した文字情報と一致する第２の文字情報に対応する第１の文字情報を取得する文字情報取得処理と
をコンピュータに実行させることを特徴とする。

本発明に係る音声文字変換装置は、入力項目毎に辞書情報を持つため、各辞書に登録される語数を減らすことができ、音声の認識精度が高い。

実施の形態１．
この実施の形態では、入力項目毎に辞書情報を持つ音声文字変換装置１００について説明する。

図１は、この実施の形態に係る音声文字変換装置１００の機能の概要を示す概念図である。
ユーザは、アプリケーション１０の所定の入力項目（入力欄）にカーソルを合わせて、マイク等の入力装置から音声により情報を入力する。例えば、金額入力欄にカーソルを合わせて、「１０万」と入力する。この場合、音声文字変換装置１００は、アプリケーション１０からカーソルがある入力項目の属性情報を取得する。ここでは、金額入力欄の属性情報として、「数値属性」を取得する。また、音声文字変換装置１００は、ユーザがマイク等の入力装置から入力した音声情報を取得する。ここでは、「１０万」を示す音声情報「ジュウマン」を取得する。そして、音声文字変換装置１００は、アプリケーション１０から取得した属性情報により使用する辞書を決定して、決定した辞書により取得した音声情報を文字情報へ変換して、認識結果としてアプリケーション１０へ返す。ここでは、「数値属性」に対応する数値認識辞書を使用して、「ジュウマン」という音声情報を「１０万」という文字情報へ変換してアプリケーション１０へ返す。すると、アプリケーション１０は、音声文字変換装置１００から返された「１０万」という文字情報を金額入力欄に設定する。
このように、音声文字変換装置１００は、入力項目毎に辞書情報を持ち、入力しようとしている項目に合わせた辞書情報を使用して音声情報を文字情報へ変換する。一般に、辞書情報に登録されている語数が少ないほどヒット率（意図した文字情報へ音声情報が変換される確率）は高くなる。入力項目毎に辞書情報を持つことで、使用する辞書情報に登録された語数を減らすことができるとともに、的確な単語だけを登録しておくことができる。そのため、音声文字変換装置１００によればヒット率を高くすることができる。つまり、音声認識精度を高くすることができる。

図２は、この実施の形態に係る音声文字変換装置１００の機能を示す機能ブロック図である。
音声文字変換装置１００は、音声情報入力部１１０、音声認識部１２０、属性情報取得部１３０、文字情報取得部１４０、属性毎辞書情報記憶部１５０を備える。
音声情報入力部１１０は、アプリケーション１０を使用するユーザが出力した所定の音声情報を処理装置により入力して記憶装置に記憶する。
音声認識部１２０は、音声情報入力部１１０が取得した音声情報を変換して文字情報を処理装置により生成する。音声認識部１２０は、言語モデルに従い、音声情報をその音を示す文字情報へ変換する。例えば、「１０」という数値の読み方として、「ジュウ」や「イチゼロ」等がある。この場合、音声認識部１２０は、ユーザが「１０」という数値を「ジュウ」という読みで発音して入力した音声情報を「ジュウ」という文字情報に変換する。一方、ユーザが「１０」という数値を「イチゼロ」という読みで発音して入力した音声情報を「イチゼロ」という文字情報に変換する。
属性情報取得部１３０は、アプリケーション１０により所定の端末に表示された複数の入力項目のうち、現在カーソルがある入力項目の属性を示す属性情報をアプリケーション１０から処理装置により取得して記憶装置に記憶する。つまり、属性情報取得部１３０は、現在入力しようとしている入力項目の属性情報を取得する。属性とは、例えば、数値、住所、人名等のその入力項目に入力される情報の性質を示す情報である。
文字情報取得部１４０は、後述する属性毎辞書情報記憶部１５０が記憶した辞書情報のうち、属性情報取得部１３０が取得した属性情報が示す属性に対応する辞書情報に基づき、音声認識部１２０が変換して生成した文字情報を処理装置により他の文字情報へ変換して、認識結果としてアプリケーション１０へ返す。例えば、上記例であれば、文字情報取得部１４０は、「ジュウ」や「イチゼロ」という文字情報を、「１０」という文字情報へ変換して「１０」という文字情報をアプリケーション１０へ返す。
属性毎辞書情報記憶部１５０は、入力項目の属性毎に、第１の文字情報と第２の文字情報とを対応付けした辞書情報を記憶装置に記憶する。例えば、図２では、属性毎辞書情報記憶部１５０は、数値を入力する入力項目に対しては数値認識辞書、住所を入力する入力項目に対しては住所認識辞書、人名を入力する入力項目に対しては人名認識辞書等を記憶する。ここで、第１の文字情報とは、変換後の文字情報であり、文字情報取得部１４０が認識結果としてアプリケーション１０へ返す文字情報である。第２の文字情報とは、音声認識部１２０が生成した文字情報と比較される文字情報であり、第１の文字情報の読みに当たる文字情報である。つまり、上記例であれば、第１の文字情報とは、「１０」であり、第２の文字情報とは、「ジュウ」、「イチゼロ」である。

図３は、図２とは異なる音声文字変換装置１００の構成を示す図である。
図３に示す音声文字変換装置１００は、図２に示す音声文字変換装置１００の機能のうち、言語モデルに従い音声情報をその音を示す文字情報へ変換する機能を備えず、音声認識装置１０１がその機能を備えている。つまり、言語モデルに従い音声情報をその音を示す文字情報へ変換する機能を外出しして、音声認識装置１０１に持たせている。つまり、音声認識装置１０１に、音声情報入力部１１０と音声認識部１２０とを持たせている。そして、音声文字変換装置１００の情報取得部１６０は、音声認識装置１０１の音声認識部１２０が音声情報を変換して生成した文字情報を処理装置により入力して記憶装置に記憶する。その他は、図２に示す音声文字変換装置１００と同様である。

図４は、アプリケーション１０により表示される画面情報と、属性毎辞書情報記憶部１５０が記憶する辞書情報の一例を示す図である。
画面情報には、金額入力欄、住所入力欄、氏名入力欄の３つの入力項目がある。属性毎辞書情報記憶部１５０は、画面情報の３つの入力項目それぞれに対応する数値認識辞書、住所認識辞書、人名認識辞書の３つの辞書情報を記憶している。
各辞書には複数の第１の文字情報が記憶され、それぞれの第１の文字情報に対して１つ又は複数の第２の文字情報が記憶されている。例えば、数値認識辞書であれば、第１の文字情報「１」に対して、第２の文字情報「イチ」が、第１の文字情報「１０」に対して、第２の文字情報「ジュウ」、「イチゼロ」等が記憶されている。

例えば、ユーザが端末から金額入力欄を選択したとする。つまり、金額入力欄にカーソルを合わせたとする。この場合、属性情報取得部１３０は、金額入力欄の属性を示す属性情報として、数値属性を取得する。ユーザが端末から金額入力欄を選択した状態で、ユーザが「１０」を音声で「ジュウ」と入力したとする。この場合、音声情報入力部１１０が「ジュウ」という音声情報を入力して、音声認識部１２０が音声情報を「ジュウ」という文字情報へ変換する。そして、文字情報取得部１４０は、まず、属性毎辞書情報記憶部１５０が記憶した辞書情報のうち、属性情報取得部１３０が取得した属性情報に対応する辞書情報を検索して選択する。つまり、ここでは、数値を入力するので数値認識辞書を検索して選択する。次に、文字情報取得部１４０は、選択した辞書情報から音声認識部１２０により生成された文字情報と一致する第２の文字情報を検索する。つまり、数値認識辞書の第２の文字情報から「ジュウ」という文字情報を検索する。そして、文字情報取得部１４０は、検索した第２の文字情報に対応する第１の文字情報を取得する。つまり、第２の文字情報「ジュウ」に対応する第１の文字情報「１０」を取得する。文字情報取得部１４０は、取得した第１の文字情報を認識結果としてアプリケーション１０へ返す。つまり、文字情報「１０」をアプリケーション１０へ返す。アプリケーション１０では、返された「１０」を金額入力欄へ記入する。

また、図４において、住所認識辞書では、第１の文字情報が階層構造により互いに関連付けされている。例えば、「東京都」と「品川区」とは、「東京都」が親、「品川区」が子という階層構造で関連付けされている。同様に、「神奈川県」と「横浜市」、「鎌倉市」とは、「神奈川県」が親、「横浜市」、「鎌倉市」が子という階層構造で関連付けされている。
これは、例えば、「神奈川県横浜市」という住所を入力する場合に、「神奈川県」という県名を入力して、さらに「横浜市」という市名を入力する場合と、県名を入力することなく「横浜市」という市名を入力する場合とが考えられる。そこで、「神奈川県」という県名を入力して、さらに「横浜市」という市名を入力された場合には、入力された通り、まず「神奈川県」という文字情報を取得して認識情報として返し、次に「横浜市」という文字情報を取得して認識情報として返す。一方、県名を入力することなく「横浜市」という市名を入力された場合には、「横浜市」という文字情報を得る場合に、その親の階層の文字情報である「神奈川県」も合わせて取得する。そして、「神奈川県横浜市」という文字情報を認識情報として返す。つまり、親の第１の文字情報が取得されずに、子の第１の文字情報が取得された場合には、子の第１の文字情報と合わせて親の第１の文字情報を取得する。
なお、上記説明では、階層構造とすることで複数の第１の文字情報を関連付けし、子の第１の文字情報が取得された場合に、親の第１の文字情報も合わせて取得するとした。しかし、関連付けする構造は階層構造に限らない。例えば、２つの第１の文字情報を対等の関係で関連付けしておき、一方が取得される場合には、他方も取得するようにしてもよい。
つまり、属性毎辞書情報記憶部１５０は、複数の第１の文字情報のある第１の文字情報である一の文字情報と、一の文字情報とは異なる第１の文字情報である二の文字情報とを関連させて記憶する。そして、文字情報取得部１４０は、二の文字情報を第１の文字情報として取得した場合、二の文字情報に関連する一の文字情報も第１の文字情報として取得して、一の文字情報とニの文字情報とを認識情報として返す。

図５は、この実施の形態に係る音声文字変換装置１００の実装例（音声文字変換プログラムの一例）の説明図である。
図５では、ＨＴＭＬを拡張したプログラムコードによる実装例と、そのプログラムコードにより表示されるシート（画面情報）とを示す。
ＨＴＭＬを拡張したプログラムコードによる実装例では、画面情報として表示するためのタグ（例えば、ＳＥＬＥＣＴタグ、ＩＮＰＵＴタグ）と、文字情報の変換を行うタグ（ＶＯＩＣＥタグ）とが混在している。つまり、図５に示す実装例では、アプリケーション１０の中に音声文字変換装置１００を組み込んでいる。画面情報として表示するタグのうち、情報を入力するためのタグは、文字情報の変換を行うタグとタグ名（入力タグ１、入力タグ２、入力タグ３）により対応している。例えば、ＳＥＬＥＣＴタグであれば、その名称である「入力タグ１」により、同じ名称が付けられたＶＯＩＣＥタグと対応付けされている。
つまり、シートにおいて入力タグ１が選択されると、プログラムコードにおいて入力タグ１の名称が付けられたＶＯＩＣＥタグが実行される。ここで、ＶＯＩＣＥタグには、その入力項目に対応する辞書情報が記述され、入力された音声情報が変換され生成された文字情報（例えば、「ジュウ」）を認識情報（例えば、「１０」）へ変換する。なお、プログラムコードでは、音声情報が変換され生成された文字情報をアルファベットで表しているが、上記説明と同様にカタカナであってもよい。
例えば、入力タグ１のＶＯＩＣＥタグでは、「１万」、「１０万」、「２０万」が第１の文字情報として登録されている。そして、各第１の文字情報に対して、第２の文字情報が登録されている。例えば、第１の文字情報「１０万」については、「ｚｙｕｕｍａｎｎ」、「ｉｃｈｉｚｅｒｏ」、「ｔｏｕ」が第２の文字情報として登録されている。また、さらに、汎用辞書「ｓｕｕ」が第２の文字情報として登録されている。汎用辞書「ｓｕｕ」は、一般的な数値属性の読みを集めた辞書情報であって、他のＸＭＬファイル等に記憶された外部辞書である。つまり、画面情報として表示するためのタグと辞書情報を混在させてプログラムコードを作成すると、プログラムコードが煩雑になるおそれがある。そこで、そのプログラムコードで特に必要な第２の文字情報はプログラムコードに直に記載し、その他の一般的な第２の文字情報は外部辞書を読み込むようにしている。これにより、プログラムコードが煩雑になることはなく、また特に必要な第２の文字情報はプログラムコードに直に記載されているため処理速度も速い。
また、入力タグ２に対応するＶＯＩＣＥタグは、図４に基づき説明したように、階層関係を有している。つまり、県名を入力することなく、市名（例えば、「横浜市」）を入力すると、「神奈川県横浜市」が認識情報として返される。

図６は、ＪＡＶＡＳｃｒｉｐｔ（登録商標）やＡＪＡＸによる実装例を示す図である。
ＪＡＶＡＳｃｒｉｐｔ（登録商標）やＡＪＡＸによる実装例もＨＴＭＬを拡張したプログラムコードによる実装例と同様に、図４に示す画面情報として表示するためのコード（ｉｎｐｕｔｔｙｐｅ・・・）と、文字情報の変換を行う関数（ｆｕｎｃｔｉｏｎｉｎｐｕｔｔａｇ１等）とが混在している。つまり、画面情報で入力項目が選択されると、選択された入力項目に対応する関数が呼ばれる。そして、その関数では、上記ＶＯＩＣＥタグと同様の処理が実行される。
例えば、入力タグ１が選択されると、ｉｎｐｕｔｔａｇ１関数が実行される。ｉｎｐｕｔｔａｇ１関数には、辞書情報が直に記載されている（辞書配列は省略して記載している）。また、入力タグ２が選択されると、ｉｎｐｕｔｔａｇ２関数が実行される。ｉｎｐｕｔｔａｇ２関数では、ＸＭＬファイル等の外部ファイルに記載された外部辞書を呼ぶ。また、入力タグ３が選択されると、ｉｎｐｕｔｔａｇ３関数が実行される。ｉｎｐｕｔｔａｇ３関数では、文字情報取得部１４０による文字情報変換処理自体を他のプログラムを呼び出して実行する。

また、例えば、ＨＴＭＬやＸＭＬのタグ名称に、図５に示すＶＯＩＣＥタグを予め対応付けしておくことで、通常通り画面情報を作成するだけで、文字情報の変換を行うタグを組み込んだプログラムコードを生成することができる。
例えば、タグ名称に「ＪＵＵＳＨＯ」と付けた場合には、「住所認識辞書」を備えるＶＯＩＣＥタグと関連付けされるように予め設定しておく。このようにすることにより、住所の入力欄を作成する際、そのタグ名称に「ＪＵＵＳＨＯ」と付けるだけで、自動的に「住所認識辞書」を備えるＶＯＩＣＥタグと関連付けされたプログラムコードが生成される。
また、ＳＥＬＥＣＴタグのような選択式のタグであれば、選択対象として登録された単語を認識対象（第１の文字情報）とする辞書を生成するようにしておいてもよい。そして、第１の文字情報に対する第２の文字情報は、例えば、一般的な辞書から第１の文字情報をキーとして検索して取得するようにしてもよい。なお、認識対象が判別できない場合には、一般的な汎用辞書を設定するとしておいてもよい。

以上のように、この実施の形態に係る音声文字変換装置１００によれば、入力項目毎に辞書情報を持つため、音声認識精度を高くすることができる。
また、辞書情報に登録された単語（第１の文字情報）を関連付けしておくことにより、入力情報を省略して入力した場合にも、必要な入力情報を補うことができる。
また、辞書情報を文書表示プログラムの中に埋め込むことにより、変換処理の高速化を図ることができる。一方、使用される確率の低い単語（第２の文字情報）については外部辞書とすることで、プログラムコードが複雑になることを防止できる。

実施の形態２．
この実施の形態では、実施の形態１に係る音声文字変換装置１００を応用して、ユーザとオペレータとの間の会話を音声情報として取得することにより、電子書類を作成する方法について説明する。

図７は、この実施の形態に係る音声文字変換装置１００の機能の概要を示す概念図である。
ユーザとオペレータとは、例えば電話等により会話をする。音声文字変換装置１００は、ユーザとオペレータとの会話を音声情報として取得して電子書類を作成する。音声文字変換装置１００は、オペレータが「〜を教えてください」と言った場合に、「〜」に当たる入力項目へカーソルを合わせる。例えば、オペレータが「ご住所を教えてください」と言った場合には、「住所」の入力欄へカーソルを合わせる。すると、音声文字変換装置１００は、実施の形態１で説明したように、カーソルが合わされた入力項目の属性情報を取得して、使用する辞書情報を切り替える。そして、オペレータからの「〜を教えてください」に対して、ユーザが「○○です」と答えた場合、音声文字変換装置１００は「○○」を認識して、カーソルを合わせた入力欄へ記入する。これをすべての項目について繰り返すことにより、電子書類の作成ができる。
このように、音声文字変換装置１００は、オペレータから入力された音声情報を認識して入力項目を切り替え、ユーザから入力された音声情報を認識して入力項目へ情報を記入する。そのため、カーソルの切り替え等の端末操作をすることなく、ユーザとオペレータとは単に会話をするだけで、電子書類の作成をすることができる。

図８は、この実施の形態に係る音声文字変換装置１００の機能を示す機能ブロック図である。
この実施の形態に係る音声文字変換装置１００は、実施の形態１に係る音声文字変換装置１００の機能に加え、さらに、項目情報取得部１７０、項目識別辞書情報記憶部１８０を備える。また、音声情報入力部１１０は、第１の音声情報入力部１１１、第２の音声情報入力部１１２を備える。
第１の音声情報入力部１１１は、オペレータが出力した音声情報（第１の音声情報）をオペレータ端末１１を介して処理装置により入力して記憶装置に記憶する。
第２の音声情報入力部１１２は、ユーザが出力した音声情報（第２の音声情報）をユーザ端末１２を介して処理装置により入力して記憶装置に記憶する。
項目情報取得部１７０は、後述する項目識別辞書情報記憶部１８０が記憶した項目識別辞書情報に基づき、第１の音声情報入力部１１１が入力した音声情報を音声認識部１２０が変換して生成した文字情報と一致する項目文字情報を検索して、検索した項目文字情報に対応する項目識別情報を処理装置により取得する。
項目識別辞書情報記憶部１８０は、複数の入力項目の入力項目毎に、その入力項目を示す項目識別情報と所定の文字情報である項目文字情報とを対応付けした項目識別辞書情報を記憶装置に記憶する。項目識別辞書情報記憶部１８０は、例えば、金額を入力する入力項目であれば、その項目識別情報「金額入力欄」と、「金額」、「お金」、「値段」等の文字情報とを対応付けして記憶する。
また、属性情報取得部１３０は、項目情報取得部１７０が取得した項目識別情報が示す入力項目の属性情報を取得する。文字情報取得部１４０は、属性毎辞書情報記憶部１５０が記憶した辞書情報のうち、属性情報取得部１３０が取得した属性情報に対応する辞書情報を検索して選択する。文字情報取得部１４０は、選択した辞書情報に基づき、第２の音声情報入力部１１２が入力した音声情報を音声認識部１２０が変換して生成した文字情報に一致する第２の文字情報に対応する第１の文字情報を取得する。そして、文字情報取得部１４０は、取得した第１の文字情報を入力項目に記述（記憶）する。

図９は、図８とは異なる音声文字変換装置１００の構成を示す図である。
図９に示す音声文字変換装置１００は、図３に示す音声文字変換装置１００と同様に、図８に示す音声文字変換装置１００の機能のうち、言語モデルに従い音声情報をその音を示す文字情報へ変換する機能を外出しして、音声認識装置１０１に持たせている。
ここで、情報取得部１６０は、第１の情報取得部１６１、第２の情報取得部１６２を備える。第１の情報取得部１６１は、第１の音声情報入力部１１１が入力した音声情報を音声認識部１２０が変換して生成した文字情報を処理装置により入力して記憶装置に記憶する。第２の情報取得部１６２は、第２の音声情報入力部１１２が入力した音声情報を音声認識部１２０が変換して生成した文字情報を処理装置により入力して記憶装置に記憶する。
その他は、図８に示す音声文字変換装置１００と同様である。

なお、上記説明では、オペレータから入力された音声情報により入力項目を切り替えるとした。しかし、オペレータだけでなくユーザから入力された音声情報により入力項目を切り替えしてもよい。
また、項目識別辞書情報記憶部１８０は、入力項目の順序を記憶しておき、「次へ」等の音声情報が入力された場合に、項目情報取得部１７０は現在カーソルが合わせられている入力項目の次の入力項目の項目識別情報を取得するとしてもよい。
また、オペレータはオペレータ端末１１により、ボタン操作等で入力項目を変更してもよい。また、入力された情報（第１の文字情報）を訂正してもよい。

以上のように、この実施の形態に係る音声文字変換装置１００によれば、ユーザとオペレータとが会話をするだけで、電子書類を作成することができる。

実施の形態３．
この実施の形態では、ユーザにより入力された音声情報とオペレータにより入力された音声情報との２つの音声情報を使うことで、音声情報の認識精度を高める方法について説明する。

図１０は、この実施の形態に係る音声文字変換装置１００の機能の概要を示す概念図である。
図１０では、オペレータが住所はどこかユーザに質問した場合を例として示す。住所を聞かれると、ユーザが「東京都」ですと答えたとする。すると、音声文字変換装置１００は、ユーザが答えた「東京都」ですという音声情報を入力して、その音を示す文字情報へ変換する。ここでは、「とうひょうと」ですと変換されたとする。一方、オペレータはユーザが答えた内容を確認するため「東京都」ですねと復唱する。すると、音声文字変換装置１００は、オペレータが復唱した「東京都」ですねという音声情報を入力して、その音を示す文字情報へ変換する。ここでは、「とおきょうと」ですねと変換されたとする。そして、音声文字変換装置１００は、２つの音声情報を変換して生成した２つの文字情報「とうひょうと」と「とおきょうと」とを比較する。すると、「う」と「お」、「ひ」と「き」という２箇所の文字情報が不一致であることがわかる。そこで、この不一致の文字情報について、ユーザの音声情報から変換された文字情報とオペレータの音声情報から変換された文字情報とのどちらが確からしいか判断して、確からしい方の文字情報を採用する。例えば、ここでは、「う」と「お」についてはユーザの音声情報から変換された文字情報「う」が確からしい、「ひ」と「き」についてはオペレータの音声情報から変換された文字情報「き」が確からしいと判断したとする。つまり、「う」と「き」とを採用する。そして、「とうきょうと」という文字情報を生成する。
また、音声文字変換装置１００は、音声情報から文字情報へ変換する際の規則を音声情報を入力する人毎に定めた言語モデルを、認識結果に基づき変更して、変換の確度（認識率）を高める。つまり、音声文字変換装置１００は、上記例では、「とうひょうと」と変換されてしまったユーザの発音（例えば、イントネーションや音の周波数）は、このユーザの場合は「とうきょうと」と変換しなければならないことがわかる。したがって、この結果に基づき、音声文字変換装置１００は、言語モデルを変更する。
このように、音声文字変換装置１００は、２つの音声情報を使うことで認識率を高めるとともに、認識結果に基づき言語モデルを改善していくことでさらに認識率を高める。そのため、ユーザとオペレータとが会話を行う度に、認識率が高くなる。

図１１は、この実施の形態に係る音声文字変換装置１００の機能を示す機能ブロック図である。
この実施の形態に係る音声文字変換装置１００の音声認識部１２０は、音声変換部１２１、文字情報比較部１２２、不一致部分決定部１２３、文字情報生成部１２４、言語モデル記憶部１２５、言語モデル更新部１２６を備える。その他は、実施の形態２に係る音声文字変換装置１００と同様である。
音声変換部１２１は、オペレータ（第１の音声情報入力部１１１）が入力した第１の音声情報を上記オペレータ用の言語モデルに基づき文字情報へ処理装置により変換する。同様に、音声変換部１２１は、ユーザ（第２の音声情報入力部１１２）が入力した第２の音声情報を上記ユーザ用の言語モデルに基づき文字情報へ処理装置により変換する。また、音声変換部１２１は、音声情報から文字情報へ変換する場合、変換後の文字情報について１文字毎に、変換が正しい確度を処理装置により計算する。
文字情報比較部１２２は、音声変換部１２１が認識した２つの文字情報とを比較して、不一致部分を処理装置により抽出する。
不一致部分決定部１２３は、文字情報比較部１２２が比較して抽出した不一致部分の文字情報を、２つの文字情報とのいずれかの不一致部分の文字情報に処理装置により決定する。不一致部分決定部１２３は、音声変換部１２１が計算した確度に基づき、不一致部分の文字情報について１文字毎にどちらの文字情報を使用するか決定する。
文字情報生成部１２４は、２つの文字情報のいずれかの不一致部分を不一致部分決定部１２３が決定した文字情報に置き換えて、文字情報を処理装置により生成する。
言語モデル記憶部１２５は、音声情報を入力する人毎（つまり、ユーザ、オペレータ毎）に、音声情報を文字情報へ変換するための言語モデルを記憶装置に記憶する。
言語モデル更新部１２６は、文字情報生成部１２４が生成した文字情報と第１の音声情報とに基づき、上記オペレータの言語モデルを更新するとともに、文字情報生成部１２４が生成した文字情報と第２の音声情報とに基づき、上記ユーザの言語モデルを処理装置により更新する。

図１２は、図１０に基づき説明した音声情報から文字情報へ変換する処理を補足説明するための図である。
上述したように、言語モデル記憶部１２５が音声情報を入力する人毎に言語モデルを記憶して、音声変換部１２１が音声情報を入力した人の言語モデルに基づき、音声情報を文字情報へ変換する。つまり、いわゆる特定話者タイプの音声認識処理を行う。この場合、言語モデルがその人（音声情報を入力した人）の発音についての情報をどれだけ持っているか、つまりどれだけ学習しているかにより認識の確度が変わる。つまり、その人の発音について学習しているほど、認識の確度は高くなる。また、発音の明確さ等によっても、認識の確度が変わる。音声変換部１２１は、音声情報から文字情報へ変換しながら、この認識の確度を文字毎に計算する。
例えば、図１２に示す例では、ユーザは新規の顧客で、言語モデルは未学習状態であり、オペレータは習熟度の高いオペレータで、言語モデルの学習も進んでいる状態であるとする。そのため、ユーザが入力した音声情報を変換した「とうひょうと」という文字情報は、全体的に認識確度が低い。一方、オペレータが入力した音声情報を変換した「とおきょうと」という文字情報は、全体的に認識確度が高い。しかし、オペレータが入力した音声情報を変換した「とおきょうと」の「お」は発音が不明確であったため、認識確度が低い。ここでは、文字情報比較部１２２が２つの文字情報を比較して抽出した不一致部分の文字情報の認識確度は、ユーザが入力した音声情報を変換した「とうひょうと」の「う」が６０％、「ひ」が３０％、オペレータが入力した音声情報を変換した「とおきょうと」の「お」が５０％、「き」が９０％であったとする。
不一致部分決定部１２３は、「う」（６０％）と「お」（５０％）を比較して、認識確度の高い「う」を採用し、「ひ」（３０％）と「き」（９０％）を比較して、認識確度の高い「き」を採用する。
文字情報生成部１２４は、例えば、「とうひょうと」の不一致部分である「う」と「ひ」とをそれぞれ、「う」と「き」とに置き換えて、「とうきょうと」という文字情報を生成する。
また、言語モデル更新部１２６は、文字情報生成部１２４が生成した「とうきょうと」という文字情報と、ユーザの発音（とうひょうと）とに基づき、ユーザの言語モデルを更新する。また、言語モデル更新部１２６は、文字情報生成部１２４が生成した「とうきょうと」という文字情報と、オペレータの発音（とおきょうと）とに基づき、オペレータの言語モデルを更新する。

なお、ユーザやオペレータが入力した音声情報から特定の音声情報を抜き出す方法（例えば、「とうきょうとです」という音声情報から「とうきょうと」を抜き出す方法）についてはどのようなものであっても構わない。例えば、一般的に語尾に付けられる「です」、「ですね」や語頭に付けられる「それは」（「それは・・・です」というような場合）等は、省くようにしておいてもよい。また、この省く情報についても言語モデルと同様に学習するようにしてもよい。

以上のように、この実施の形態に係る音声文字変換装置１００によれば、ユーザとオペレータとの２つの音声情報を用いて、１つの文字情報へ変換することにより認識精度を高くすることができる。
また、２つの音声情報から生成された文字情報と、入力された音声情報とを用いて言語モデルを更新するため、ユーザとオペレータとが会話をするほど認識精度が高くなる。
なお、実施の形態１に示す文字情報の変換処理と合わせて実施することにより、音声情報から認識結果を導く精度をさらに高くすることができる。

実施の形態４．
この実施の形態では、上記実施の形態で説明した音声文字変換装置１００をコールセンターシステムに応用した例について説明する。

図１３は、この実施の形態に係る音声文字変換装置１００の機能の概要を示す概念図である。
例えば、金融業等において商品を販売する際に、事前にその商品のリスク等の所定の説明をユーザへ行うことが義務付けされている場合がある。コールセンターにおいて、ユーザから商品の購入の申し出がされた場合、オペレータは義務付けされている説明を行う。しかし、義務付けされている説明は商品毎に定められたものであるため、オペレータは単にその説明を読み上げしているに過ぎない。
そこで、その説明をオペレータに代わり音声文字変換装置１００が音声により行う。音声文字変換装置１００は、音声による説明が終了すると、ユーザに説明内容を了解してもらえるか否か確認する。この際、ユーザはオペレータと会話する場合と同様、音声で了解するか否かを入力する。すると、音声文字変換装置１００は、確認認識辞書を使って入力された音声情報を認識して、オペレータへ認識結果を送信する。オペレータは認識結果により、ユーザが説明を了解したか否かを知ることができる。そして、了解している場合には、オペレータはユーザと通話して商品の購入のための処理へ進む。
また、音声文字変換装置１００は、音声による説明中もユーザからの音声の入力を受け付ける。例えば、ユーザが説明を一時停止して欲しい場合には、その旨を音声により入力する。すると、音声文字変換装置１００は割込認識辞書を使って入力された音声を認識して、説明を一時停止する。また、ユーザが説明内容について質問がある場合も同様にその旨を音声により入力する。すると、音声文字変換装置１００は割込認識辞書を使って入力された音声を認識して、認識結果をオペレータへ送信する。オペレータは、認識結果により、ユーザが説明に質問があることを知ることができる。そこで、オペレータはユーザと通話して質問に対応することができる。
このように、音声文字変換装置１００がオペレータに代わって音声により説明を行い、ユーザからの応答を音声により受付する。そのため、オペレータは、音声文字変換装置１００が説明を行っている間、他の作業をすることができ作業効率を高くすることができる。また、ユーザにとっては、オペレータから説明を受けているのと同様の説明を受けることができる。さらに、ユーザは、質問がある場合等にも機械の操作ではなく、オペレータが対応しているときと同様に音声により質問があることを伝えることができ、不慣れな機械操作を行う必要がない。

図１４は、この実施の形態に係る音声文字変換装置１００の機能を示す機能ブロック図である。
この実施の形態に係る音声文字変換装置１００は、実施の形態１に係る音声文字変換装置１００の機能に加え、音声出力部１９０、確認情報要求部２００、送信部２１０を備える。
音声出力部１９０は、記憶装置に記憶された所定の説明情報を音声情報として出力する。音声出力部１９０は、予め音声情報として記憶された説明情報をそのまま音声情報として出力してもよいし、文字情報等として記憶された説明情報を音声情報へ変換して出力してもよい。
確認情報要求部２００は、音声出力部１９０が説明情報の出力を終了すると、所定の確認情報の入力を処理装置により要求する。つまり、確認情報要求部２００は、説明した内容を了解したか否かの入力を要求する。これに対して、音声情報入力部１１０は、ユーザが入力した確認情報を音声情報として入力し、音声認識部１２０が文字情報へ変換する。そして、文字情報取得部１４０は、属性毎辞書情報記憶部１５０が記憶した辞書情報のうち、確認情報用の辞書情報である確認認識辞書に基づき、音声認識部１２０が変換した文字情報と一致する第２の文字情報に対応する第１の文字情報を取得する。例えば、第１の文字情報としては、「了解」、「取消」等が登録されている。また、第１の文字情報「了解」に対する第２の文字情報としては「リョウカイ」、「カクニン」等が登録され、第１の文字情報「取消」に対する第２の文字情報としては「トリケシ」、「キャンセル」等が登録されている。
送信部２１０は、文字情報取得部１４０が取得した第１の文字情報を確認情報として、オペレータの端末へ通信装置を介して送信する。

また、音声情報入力部１１０は、音声出力部１９０が説明情報の出力中に、ユーザが入力した割込情報を音声情報として入力する。音声認識部１２０は、入力された音声情報を文字情報へ変換する。文字情報取得部１４０は、属性毎辞書情報記憶部１５０が記憶した辞書情報のうち、割込情報用の辞書情報である割込認識辞書に基づき、音声認識部１２０が変換した文字情報と一致する第２の文字情報に対応する第１の文字情報を取得する。送信部２１０は、文字情報取得部１４０が取得した第１の文字情報を割込情報として、オペレータの端末へ通信装置を介して送信する。

なお、属性情報取得部１３０は、音声出力部１９０が音声情報を出力する際、音声出力部１９０から属性情報として割込属性を取得し、音声出力部１９０が音声情報を出力を終えると、音声出力部１９０から属性情報として確認属性を取得する。文字情報取得部１４０は、実施の形態１と同様に属性情報取得部１３０が取得した属性情報に従い、使用する辞書情報を切り替えする。
また、ユーザからの入力は音声情報とともに、ボタン操作等による入力も受付してもよい。
また、説明は音声だけでなく、合わせて映像等をユーザの端末へ表示してもよい。

図１５は、この実施の形態に係る音声文字変換装置１００の実装例（双方向説明確認プログラムの一例）の説明図である。
図１５に示す双方向説明確認プログラムでは、説明文をユーザの端末へ表示するとともに、音声出力する。同様に、確認要求する場面では、確認／取消ボタンをユーザの端末へ表示するとともに、音声出力して、ボタンによる確認／取消の入力とともに、音声による確認／取消の入力を受け付ける。
また、表示するタグ（例えば、ＩＮＰＵＴタグ）と、音声出力のタグ（ＶＯＩＣＥタグ）とがタグ名称によって関連付けされている。
なお、図１５では、ＨＴＭＬを拡張したプログラムコードにより実装例を示したが、図６に基づき説明したようなＪＡＶＡＳｃｒｉｐｔ（登録商標）やＡＪＡＸにより実装しても構わない。

以上のように、この実施の形態に係る音声文字変換装置１００によれば、音声文字変換装置１００がオペレータに代わって音声により説明を行い、ユーザからの応答を音声により受付するため、オペレータは、音声文字変換装置１００が説明を行っている間、他の作業をすることができ作業効率を高くすることができる。
また、ユーザは音声による操作のみで足りるため、ユーザにとっても不便となることはない。
また、音声文字変換装置１００は設定された説明文を脚色することなく出力するため、オペレータによる説明よりも的確に内容を伝えることができる。

次に、上記実施の形態における音声文字変換装置１００のハードウェア構成について説明する。
図１６は、音声文字変換装置１００のハードウェア構成の一例を示す図である。
図１６に示すように、音声文字変換装置１００は、プログラムを実行するＣＰＵ９１１（Ｃｅｎｔｒａｌ・Ｐｒｏｃｅｓｓｉｎｇ・Ｕｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう）を備えている。ＣＰＵ９１１は、バス９１２を介してＲＯＭ９１３、ＲＡＭ９１４、ＬＣＤ９０１（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、キーボード９０２、通信ボード９１５、磁気ディスク装置９２０と接続され、これらのハードウェアデバイスを制御する。磁気ディスク装置９２０の代わりに、光ディスク装置、メモリカード読み書き装置などの記憶装置でもよい。

ＲＯＭ９１３、磁気ディスク装置９２０は、不揮発性メモリの一例である。ＲＡＭ９１４は、揮発性メモリの一例である。ＲＯＭ９１３とＲＡＭ９１４と磁気ディスク装置９２０とは、記憶装置の一例である。通信ボード９１５とキーボード９０２とは、入力装置の一例である。また、通信ボード９１５は、出力装置の一例である。さらに、通信ボード９１５は、通信装置の一例である。また、さらに、ＬＣＤ９０１は、表示装置の一例である。

磁気ディスク装置９２０又はＲＯＭ９１３などには、オペレーティングシステム９２１（ＯＳ）、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。プログラム群９２３のプログラムは、ＣＰＵ９１１、オペレーティングシステム９２１、ウィンドウシステム９２２により実行される。

プログラム群９２３には、上記の説明において音声文字変換装置１００の各処理を実行するプログラムやその他のプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。つまり、「音声情報入力部１１０」、「音声認識部１２０」、「属性情報取得部１３０」、「文字情報取得部１４０」、「情報取得部１６０」、「項目情報取得部１７０」として説明した機能を実行するプログラムやその他のプログラムが記憶されている。
ファイル群９２４には、上記の説明において音声文字変換装置１００が扱う情報やデータや信号値や変数値やパラメータが、「ファイル」や「データベース」の各項目として記憶される。つまり、「属性毎辞書情報記憶部１５０」、「項目識別辞書情報記憶部１８０」が記憶した情報が、「ファイル」や「データベース」の各項目として記憶される。「ファイル」や「データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ９１１によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのＣＰＵ９１１の動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のＣＰＵ９１１の動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、上記の説明におけるフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、ＲＡＭ９１４のメモリ、その他光ディスク等の記録媒体に記録される。また、データや信号は、バス９１２や信号線やケーブルその他の伝送媒体によりオンライン伝送される。

また、上記の説明において「〜部」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」、「〜機能」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。また、「〜装置」として説明するものは、「〜回路」、「〜装置」、「〜機器」、「〜手段」、「〜機能」であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。さらに、「〜処理」として説明するものは「〜ステップ」であっても構わない。すなわち、「〜部」として説明するものは、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、ＲＯＭ９１３等の記録媒体に記憶される。プログラムはＣＰＵ９１１により読み出され、ＣＰＵ９１１により実行される。すなわち、プログラムは、上記で述べた「〜部」としてコンピュータ等を機能させるものである。あるいは、上記で述べた「〜部」の手順や方法をコンピュータ等に実行させるものである。

実施の形態１に係る音声文字変換装置１００の機能の概要を示す概念図。実施の形態１に係る音声文字変換装置１００の機能を示す機能ブロック図。実施の形態１に係る音声文字変換装置１００であって、図２とは異なる構成を示す図。アプリケーション１０により表示される画面情報と、属性毎辞書情報記憶部１５０が記憶する辞書情報の一例を示す図。実施の形態１に係る音声文字変換装置１００の実装例（音声文字変換プログラムの一例）の説明図。ＪＡＶＡＳｃｒｉｐｔ（登録商標）やＡＪＡＸによる実装例を示す図。実施の形態２に係る音声文字変換装置１００の機能の概要を示す概念図。実施の形態２に係る音声文字変換装置１００の機能を示す機能ブロック図。実施の形態２に係る音声文字変換装置１００であって、図８とは異なる構成を示す図。実施の形態３に係る音声文字変換装置１００の機能の概要を示す概念図。実施の形態３に係る音声文字変換装置１００の機能を示す機能ブロック図。図１０に基づき説明した音声情報から文字情報へ変換する処理の補足説明図。実施の形態４に係る音声文字変換装置１００の機能の概要を示す概念図。実施の形態４に係る音声文字変換装置１００の機能を示す機能ブロック図。実施の形態４に係る音声文字変換装置１００の実装例（双方向説明確認プログラムの一例）の説明図。音声文字変換装置１００のハードウェア構成の一例を示す図。

符号の説明

１０アプリケーション、１１オペレータ端末、１２ユーザ端末、１００音声文字変換装置、１０１音声認識装置、１１０音声情報入力部、１１１第１の音声情報入力部、１１２第２の音声情報入力部、１２０音声認識部、１２１音声変換部、１２２文字情報比較部、１２３不一致部分決定部、１２４文字情報生成部、１２５言語モデル記憶部、１２６言語モデル更新部、１３０属性情報取得部、１４０文字情報取得部、１５０属性毎辞書情報記憶部、１６０情報取得部、１６１第１の情報取得部、１６２第２の情報取得部、１７０項目情報取得部、１８０項目識別辞書情報記憶部、１９０音声出力部、２００確認情報要求部、２１０送信部。

Claims

入力項目の属性を示す属性情報を取得して記憶装置に記憶する属性情報取得部と、
入力項目の属性毎に、第１の文字情報と第２の文字情報とを対応付けした辞書情報を記憶装置に記憶する属性毎辞書情報記憶部と、
文字情報を入力して記憶装置に記憶する情報入力部と、
上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記属性情報取得部が取得した属性情報に対応する辞書情報を検索して、上記情報入力部が入力した文字情報と一致する第２の文字情報に対応する第１の文字情報を処理装置により取得する文字情報取得部と
を備えることを特徴とする音声文字変換装置。
上記情報入力部は、所定の音声情報が変換され生成された文字情報を入力する
ことを特徴とする請求項１に記載の音声文字変換装置。
上記属性毎辞書情報記憶部は、入力項目の属性毎に複数の第１の文字情報を記憶するとともに、上記複数の第１の文字情報のある第１の文字情報である一の文字情報と、上記一の文字情報とは異なる第１の文字情報である二の文字情報とを関連させて記憶し、
上記文字情報取得部は、上記二の文字情報を第１の文字情報として取得した場合、上記二の文字情報に関連する上記一の文字情報も第１の文字情報として取得する
ことを特徴とする請求項１又は２に記載の音声文字変換装置。
上記音声文字変換装置は、さらに、
記憶装置に記憶された所定の情報を音声情報として出力する音声出力部と、
上記音声出力部が上記所定の情報の出力を終了すると、所定の確認情報の入力を処理装置により要求する確認情報要求部とを備え、
上記情報入力部は、上記確認情報要求部が要求に対して入力された音声情報を変換して生成した文字情報を入力し、
上記文字情報取得部は、上記属性毎辞書情報記憶部が記憶した辞書情報のうち、上記確認情報用の辞書情報に基づき、上記情報入力部が入力した文字情報と一致する第２の文字情報に対応する第１の文字情報を取得し、
上記音声文字変換装置は、さらに、
上記文字情報取得部が取得した第１の文字情報を確認情報として、所定の端末へ通信装置を介して送信する送信部
を備えることを特徴とする請求項１から３までのいずれかに記載の音声文字変換装置。
処理装置が、入力項目の属性を示す属性情報を取得する属性情報取得ステップと、
処理装置が、文字情報を入力する情報入力ステップと、
処理装置が、入力項目の属性毎に、予め記憶装置に記憶した第１の文字情報と第２の文字情報とを対応付けした辞書情報のうち、上記属性情報取得ステップで取得した属性情報に対応する辞書情報を検索して、上記情報入力ステップで入力した文字情報と一致する第２の文字情報に対応する第１の文字情報を取得する文字情報取得ステップと
を備えることを特徴とする音声文字変換方法。
入力項目の属性を示す属性情報を取得する属性情報取得処理と、
文字情報を入力する情報入力処理と、
入力項目の属性毎に、第１の文字情報と第２の文字情報とを対応付けした辞書情報のうち、上記属性情報取得処理で取得した属性情報に対応する辞書情報を検索して、上記情報入力処理で入力した文字情報と一致する第２の文字情報に対応する第１の文字情報を取得する文字情報取得処理と
をコンピュータに実行させることを特徴とする音声文字変換プログラム。