JP3621922B2 - 文認識装置、文認識方法、プログラム、および媒体 - Google Patents
文認識装置、文認識方法、プログラム、および媒体 Download PDFInfo
- Publication number
- JP3621922B2 JP3621922B2 JP2002024427A JP2002024427A JP3621922B2 JP 3621922 B2 JP3621922 B2 JP 3621922B2 JP 2002024427 A JP2002024427 A JP 2002024427A JP 2002024427 A JP2002024427 A JP 2002024427A JP 3621922 B2 JP3621922 B2 JP 3621922B2
- Authority
- JP
- Japan
- Prior art keywords
- sentence
- word
- specific
- specific word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Character Discrimination (AREA)
Description
【発明の属する技術分野】
本発明は、たとえば音声認識やテキスト文認識を利用する文認識装置、文認識方法、プログラム、および媒体に関する。
【0002】
【従来の技術】
音声認識手段を例にして、従来技術を説明する。
【0003】
音声認識手段において、認識処理が完全でなく誤りを起こしてしまい、誤ったまま出力されてしまうことは、実用化の際に大きな問題となる。
【0004】
従来、この問題を解決するために、認識結果の第一候補の認識スコアが第二候補以下の認識スコアに比べて一定値以下の差であった場合に、認識結果の信頼度が低いとみなし認識結果文をリジェクトするまたは、再入力を促す方法が提案されている。
【0005】
この例を、たとえば連続音声認識手段の典型的な探索手段であるone−pass,n−best探索を用いた場合の例でより具体的に説明する。
【0006】
予め各音素の音響的特徴を学習用音声DBを用いて抽出し、さらに、左記音素の列として表される単語間の連結確率をテキストDBを用いて算出しておく。認識時には、入力音声の単位時間あたりの音響的特徴を分析し、この特徴量の時系列と予め学習された各音素の音響的特徴量とを比較し、各時点での入力音声が各音素である確率として音響スコアが算出される。
【0007】
単語辞書に記述されている単語の音素列に従って時系列に沿って音響スコアを加算し、その加算値が各時点での音響スコアになる。全音素列分の探索空間がとれない場合には、スコアの高い上位N個の結果のみを残しながら処理が進む。
【0008】
入力音声に複数単語が含まれている場合は、予め学習されている単語間の連結確率を参照しながら単語を連結し、連結時点では、上記音響スコアに加えて単語間の連結確率(言語スコアという)がスコアに加算される。
【0009】
このようにして算出された上位N候補の認識スコアにおいて、第一候補と第二候補のスコアの差が一定値以下の場合には、第一候補の結果の信頼性が低いとみなして結果をリジェクトする(たとえば、實廣など:「対立音素間のゆう度差に基づく信頼性尺度によるリジェクション」電子情報通信学会技術報告SP97−76,pp.1−7(1997))。
【0010】
【発明が解決しようとする課題】
しかしながら、上記の認識スコアは、入力音声と予め学習された音響モデルまたは言語モデルとの類似性を表わしており、入力する話者や発声内容の違いにより、たとえ正しい認識が行われていてもその値は大きく異なるのが現状である。このため、リジェクトのためのスコア比閾値を決めることが非常に困難であり、度々、正しい認識結果をリジェクトしたり、誤った認識結果を正しいと判断して出力することがあった。
【0011】
このように、音声認識やテキスト文認識を利用して適切な文認識を行うことは、困難であった。
【0012】
本発明は、上記従来のこのような課題を考慮し、音声認識やテキスト文認識を利用して適切な文認識を行うことができる文認識装置、文認識方法、プログラム、および媒体を提供することを目的とするものである。
【0013】
【課題を解決するための手段】
第一の本発明(請求項1に対応)は、あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対を格納するデータベースと、
複数の単語から構成される入力された文を認識する文認識手段と、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択手段と、
前記選択された複数の特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定手段と、
前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識手段により誤って認識された誤認識特定単語を決定する誤認識特定単語決定手段とを備えた文認識装置である。
【0014】
第二の本発明(請求項2に対応)は、前記誤認識特定単語決定手段は、前記データベースに格納されている標準特定単語対ではないと判定された任意特定単語対の内の所定個以上の任意特定単語対に共通する特定単語を前記誤認識特定単語として決定する第一の本発明の文認識装置である。
【0015】
第三の本発明(請求項3に対応)は、前記誤認識特定単語があった場合には、(1)その誤認識特定単語に対応する特定単語の再入力、または(2)前記入力された文の再入力を要求する再入力要求手段を備えた第一または第二の本発明の文認識装置である。
【0016】
第四の本発明(請求項4に対応)は、前記誤認識特定単語があった場合には、その旨をユーザに通知する通知手段を備えた第一または第二の本発明の文認識装置である。
【0017】
第五の本発明(請求項5に対応)は、あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対を格納するデータベースと、
複数の単語から構成される入力された文を認識する文認識手段と、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択手段と、
前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定手段と、
前記判定の結果に基づいて、前記入力された文が前記文認識手段により誤認識されたか否かを決定する文誤認識決定手段とを備えた文認識装置である。
【0018】
第六の本発明(請求項6に対応)は、前記誤認識があった場合には、前記入力された文の再入力を要求する文再入力要求手段を備えた第五の本発明の文認識装置である。
【0019】
第七の本発明(請求項7に対応)は、前記誤認識があった場合には、その旨をユーザに通知する通知手段を備えた第五の本発明の文認識装置である。
【0020】
第八の本発明(請求項8に対応)は、あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を格納する第一のデータベースと、
複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を格納する第二のデータベースと、
複数の単語から構成される入力された文を認識する文認識手段と、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択手段と、
前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定手段と、
前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定手段と、
前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識手段により誤って認識された誤認識特定単語を決定する誤認識特定単語決定手段とを備えた文認識装置である。
【0021】
第九の本発明(請求項9に対応)は、前記誤認識特定単語決定手段は、前記第二のデータベースに格納されている標準特定単語クラス対ではないと判定された任意特定単語クラス対の内の所定個以上の任意特定単語クラス対に共通する特定単語クラスに属する特定単語を前記誤認識特定単語として決定する第八の本発明の文認識装置である。
【0022】
第十の本発明(請求項10に対応)は、前記誤認識特定単語があった場合には、(1)その誤認識特定単語に対応する特定単語の再入力、または(2)前記入力された文の再入力を要求する再入力要求手段を備えた第八または第九の本発明の文認識装置である。
【0023】
第十一の本発明(請求項11に対応)は、前記誤認識特定単語があった場合には、その旨をユーザに通知する通知手段を備えた第八または第九の本発明の文認識装置である。
【0024】
第十二の本発明(請求項12に対応)は、あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を格納する第一のデータベースと、
複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を格納する第二のデータベースと、
複数の単語から構成される入力された文を認識する文認識手段と、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択手段と、
前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定手段と、
前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定手段と、
前記判定の結果に基づいて、前記入力された文が前記文認識手段により誤認識されたか否かを決定する文誤認識決定手段とを備えた文認識装置である。
【0025】
第十三の本発明(請求項13に対応)は、前記誤認識があった場合には、前記入力された文の再入力を要求する文再入力要求手段を備えた第十二の本発明の文認識装置である。
【0026】
第十四の本発明(請求項14に対応)は、前記誤認識があった場合には、その旨をユーザに通知する通知手段を備えた第十二の本発明の文認識装置である。
【0027】
第十五の本発明(請求項15に対応)は、あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対を格納するデータベースを用いた文認識方法であって、
複数の単語から構成される入力された文を認識する文認識ステップと、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、
前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定ステップと、
前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識ステップにより誤って認識された誤認識特定単語を決定する誤認識特定単語決定ステップとを備えた文認識方法である。
【0028】
第十六の本発明(請求項16に対応)は、あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対を格納するデータベースを用いた文認識方法であって、
複数の単語から構成される入力された文を認識する文認識ステップと、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、
前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定ステップと、
前記判定の結果に基づいて、前記入力された文が前記文認識ステップにより誤認識されたか否かを決定する文誤認識決定ステップとを備えた文認識方法である。
【0029】
第十七の本発明(請求項17に対応)は、あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を格納する第一のデータベースと、
複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を格納する第二のデータベースとを用いた文認識方法であって、
複数の単語から構成される入力された文を認識する文認識ステップと、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、
前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定ステップと、
前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定ステップと、
前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識ステップにより誤って認識された誤認識特定単語を決定する誤認識特定単語決定ステップとを備えた文認識方法である。
【0030】
第十八の本発明(請求項18に対応)は、あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を格納する第一のデータベースと、
複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を格納する第二のデータベースとを用いた文認識方法であって、
複数の単語から構成される入力された文を認識する文認識ステップと、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、
前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定ステップと、
前記決定された特定単語クラス同士から構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定ステップと、
前記判定の結果に基づいて、前記入力された文が前記文認識ステップにより誤認識されたか否かを決定する文誤認識決定ステップとを備えた文認識方法である。
【0031】
第十九の本発明(請求項19に対応)は、あらかじめ定められた複数の特定単語同士から構成される、あらかじめ定められた複数の標準特定単語対をデータベースに格納する格納ステップと、複数の単語から構成される入力された文を認識する文認識ステップと、前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定ステップと、前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識ステップにより誤って認識された誤認識特定単語を決定する誤認識特定単語決定ステップとの全部または一部をコンピュータに実行させるためのプログラムである。
【0032】
第二十の本発明(請求項20に対応)は、あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対をデータベースに格納する格納ステップと、複数の単語から構成される入力された文を認識する文認識ステップと、前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定ステップと、前記判定の結果に基づいて、前記入力された文が前記文認識ステップにより誤認識されたか否かを決定する文誤認識決定ステップとの全部または一部をコンピュータに実行させるためのプログラムである。
【0033】
第二十一の本発明(請求項21に対応)は、あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を第一のデータベースに格納する第一の格納ステップと、複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を第二のデータベースに格納する第二の格納ステップと、複数の単語から構成される入力された文を認識する文認識ステップと、前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定ステップと、前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定ステップと、前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識ステップにより誤って認識された誤認識特定単語を決定する誤認識特定単語決定ステップとの全部または一部をコンピュータに実行させるためのプログラムである。
【0034】
第二十二の本発明(請求項22に対応)は、あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を第一のデータベースに格納する第一の格納ステップと、複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を第二のデータベースに格納する第二の格納ステップと、複数の単語から構成される入力された文を認識する文認識ステップと、前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定ステップと、前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定ステップと、前記判定の結果に基づいて、前記入力された文が前記文認識ステップにより誤認識されたか否かを決定する文誤認識決定ステップとの全部または一部をコンピュータに実行させるためのプログラムである。
【0035】
第二十三の本発明(請求項23に対応)は、第十九の本発明のプログラムを担持した媒体であって、コンピュータにより処理可能な媒体である。
【0036】
第二十四の本発明(請求項24に対応)は、第二十の本発明のプログラムを担持した媒体であって、コンピュータにより処理可能な媒体である。
【0037】
第二十五の本発明(請求項25に対応)は、第二十一の本発明のプログラムを担持した媒体であって、コンピュータにより処理可能な媒体である。
【0038】
第二十六の本発明(請求項26に対応)は、第二十二の本発明のプログラムを担持した媒体であって、コンピュータにより処理可能な媒体である。
【0039】
なお、(1)認識結果文に含まれる特定の単語間の関係から誤認識単語を推定し、推定結果を認識結果文に反映させて出力することを特徴とする音声認識手段において、誤認識単語を推定するために用いた単語の全てまたは多くが誤認識単語であると推定された場合ユーザに再入力を要求することを特徴とする結果リジェクト手段または再入力要求手段や、(2)依存関係または共起関係にある特定単語または単語クラス対を予め学習しておき、これらと同じ単語対が全く認識結果文に含まれないまたは少ない場合にユーザに再入力を要求することを特徴とする結果リジェクト手段または再入力要求手段も、発明に含まれる。
【0040】
このようなリジェクト手段は、たとえば、複数の単語からなる発声を認識するための連続音声認識手段と、認識結果から特定の単語を抽出する重要語抽出手段と、抽出された単語間の依存関係または共起関係を調べ認識結果の信頼性を判断する信頼性算出手段と、結果の信頼性がない場合に結果をリジェクトするリジェクト決定手段と、リジェクトした場合に再入力要求文を生成する出力文生成手段から構成される。
【0041】
このようなリジェクト手段においては、認識結果文から特定の単語を抽出し、抽出された単語から依存関係または共起関係にある単語対を探し、左記単語対が存在しないまたは少ない場合に、認識結果をリジェクトすることで、話者や発声内容が変わっても安定して誤った結果をリジェクトすることが可能となる。
【0042】
また、一般的なシソーラス辞書と学習用文セットに含まれる単語間の関係とを用いて決定された単語クラスを用いることを特徴とする上述の結果リジェクト手段または再入力要求手段も、発明に含まれる。
【0043】
このようなリジェクト手段は、たとえば、重要語をクラス化する単語クラス決定手段と、先単語クラス間の関係を記述しておく単語クラス間の関係表と、複数の単語からなる発声を認識するための連続音声認識手段と、認識結果から特定の単語を抽出する重要語抽出手段と、抽出された単語間の依存関係または共起関係を調べ認識結果の信頼性を判断する信頼性算出手段と、結果の信頼性がない場合に結果をリジェクトするリジェクト決定手段と、リジェクトした場合に再入力要求文を生成する出力文生成手段から構成される。
【0044】
このようなリジェクト手段においては、予め単語を最適にクラス化しておき、単語クラス間の依存関係または共起関係を調べ表に記述しておく。認識時には、認識結果文から特定の単語を抽出し、先の依存関係または共起関係を記述した関係表を用いて、抽出された単語から依存関係または共起関係にある単語対を探し、左記単語対が存在しないまたは少ない場合に、認識結果をリジェクトすることで、話者や発声内容が変わっても安定して誤った結果をリジェクトすることが可能となる。さらに、単語間の関係を学習する文セットに存在しない単語が認識時に入力されても、リジェクトまたは再入力要求処理が可能となる。
【0045】
【発明の実施の形態】
以下に、本発明にかかる実施の形態について、図面を参照しつつ説明を行う。
【0046】
(実施の形態1)
はじめに、本発明の実施の形態1における再入力要求手段の構成を示すブロック図である図1を参照しながら、本実施の形態における再入力要求手段の構成および動作について説明する。
【0047】
ここでは、音声認識手段において認識結果をリジェクトする場合を例に説明する。
【0048】
認識する前に、予め依存関係分析手段を用いて、形態素解析済みのコーパス(以降、タグ付きコーパスという)の各フレーズ毎の依存構造解析を行い、この結果を、各々のフレーズに含まれる内容語間の依存関係として、依存関係にある単語対を表に記述しておく。ここでの依存構造解析手段としては、たとえば、格文法規則を用いて文節間の構文解析を行うことで明らかにすることが可能である。
【0049】
認識時には、まず入力音声を認識し、認識結果単語列を出力する。この際の認識手法は、たとえば、one−passのn−best探索を用いた連続音声認識手法では、結果として単語列を認識候補として出力することが可能である。次に、出力された認識結果である単語列から特定の単語のみを抽出する。ここでは、文の意図を理解する上で必要な単語(重要語という)を特定単語とし、具体的には内容語を特定単語としてもよい。次に、特定された重要語間の関係を調べることで、誤認識単語を推定する。この手段は、たとえば、認識結果から抽出された重要語の中に、予め解析されている依存関係にある単語対が共に存在するかを調べ、他のどの重要語とも相当する単語対をなさない重要語を誤認識単語とみなす。この手段において、全ての単語が誤認識単語であるとみなされた際に、本認識結果の信頼性は著しく低いとみなして、リジェクトと決定し、発声者に再入力を促すメッセージ文を生成して画面に表示する。この場合に生成される文としては、「聞き取れませんでした。もう一度発声下さい。」などである。いくつかの単語が誤認識と推定されなかった場合には、誤認識ではない重要語を含むフレーズのみから構成される文を生成し画面に出力する。このリジェクト決定手段では、全ての単語が誤認識であった場合にリジェクトと決定したが、たとえば、認識結果から抽出された重要語の中の一定の割合以上の個数の単語が誤認識単語であるとみなされた場合にリジェクトすると決定し、一定割合以下の場合認識結果を出力てもよい。
【0050】
本実施の形態では、予め単語間の依存関係を抽出しておき、この依存関係と認識結果に含まれる重要語を比較することで、認識結果に含まれる誤認識単語を推定し、認識結果の全てもしくは一定割合以上の重要語が誤認識単語であるとみなされた場合に認識結果をリジェクトし再入力の要求を発声者に促すことにより、話者や発声内容に変化しても、安定して誤った結果をリジェクトし、効果的に再入力を要求することができるものである。
【0051】
よって、認識結果文に含まれる重要語間の依存関係または共起関係から誤認識単語を推定し、単語の多くが誤認識単語であると推定された場合にユーザに再入力を要求することにより、話者や発声内容に変化しても、安定して誤った結果をリジェクトし、効果的に再入力を要求することができる。
【0052】
(実施の形態2)
はじめに、本発明の実施の形態2における再入力要求手段の構成を示すブロック図である図2を参照しながら、本実施の形態における再入力要求手段の構成および動作について説明する。
【0053】
ここでも、音声認識手段において認識結果をリジェクトする場合を例に説明する。
【0054】
認識する前に、予め依存関係分析手段を用いて、形態素解析済みのコーパス(以降、タグ付きコーパスという)の各フレーズ毎の依存構造解析を行い、この結果を、各々のフレーズに含まれる内容語間の依存関係として、依存関係にある単語対を表に記述しておく。方法は先の実施例と同様である。次にコーパスに存在しない単語が入力された場合に対応するために、重要語をクラス化する。一般に使用されているシソーラス辞書に従い、シソーラスにて同じカテゴリーに属する重要語を同じクラスとするクラス化手段でもよいが、入力されるドメインが限定できる場合には、以下の手段がより最適なクラス化を行うことば可能になると考えられる。まず、あらゆる重要語をシソーラスの意味コードに従ってクラス化し、これを初期クラスとする。先に解析された依存関係にある単語対から、同じクラスに属している全てのどの単語とも同じ単語に依存していない単語を単語クラスから外し、単語単独で1クラスとする。全ての単語対に対して、上記条件でクラスから外す単語を探索した結果を単語クラスと決定する。単語クラスが決定されると、先に抽出した依存関係にある単語対を単語クラス対として表現し、表に記載する。
【0055】
認識時にも、先の実施例と同様に連続音声認識と重要語抽出を行い、予め解析された依存関係にある単語クラス対と比較することで誤認識単語を推定し、リジェクトと再入力要求の出力を決定する。
【0056】
本実施の形態では、予め単語間の依存関係を抽出しておき、シソーラス辞書と先の依存関係を用いて単語クラス化を行い、先の依存関係を単語クラス間の依存関係として表に記載しておく。この単語クラス間の依存関係と認識結果に含まれる重要語を比較することで、認識結果に含まれる誤認識単語を推定し、認識結果の全てもしくは一定割合以上の重要語が誤認識単語であるとみなされた場合に認識結果をリジェクトし再入力の要求を発声者に促す。これにより、先の実施例同様の、話者や発声内容に変化しても、安定して誤った結果をリジェクトし、効果的に再入力を要求することができる効果に加えて、コーパスにない重要語が入力されても、誤認識推定やリジェクト決定などの上記処理を行うことが可能である効果がある。
【0057】
よってシソーラス辞書とコーパスを用いて予め重要語をクラス化しておき、先重要語クラス間の依存関係を用いて、認識結果に含まれる誤認識単語を推定し、単語の多くが誤認識単語であると推定された場合にユーザに再入力を要求することにより、話者や発声内容に変化しても、安定して誤った結果をリジェクトし、効果的に再入力を要求することができ、さらに、コーパスに含まれない重要語や文表現が入力されても、誤認識推定やリジェクト決定などの上記処理を行うことが可能である。
【0058】
上述した本実施の形態1〜2においては、認識スコアを指標にリジェクト閾値を設定するのではなく、認識結果文の文としての自然性を指標にし、認識結果に含まれる特定の単語間の依存関係または共起関係を調べ、全ての単語がお互いに関係が薄い場合にリジェクトすることにより、話者や発声内容に変化しても、安定して誤った結果をリジェクトし、効果的に再入力を要求することができる。
【0059】
(実施の形態3)
はじめに、本発明の実施の形態3における音声認識装置の構成を示すブロック図である図3を参照しながら、本実施の形態における音声認識装置の構成について説明する。
【0060】
本実施の形態における音声認識装置は、データベース101と、音声認識手段102と、内容語選択手段103と、判定手段104と、誤認識内容語決定手段105と、内容語再入力要求手段106とを備えている。
【0061】
なお、データベース101は本発明のデータベースに対応し、音声認識手段102は本発明の文認識手段に対応し、内容語選択手段103は本発明の特定単語選択手段に対応し、判定手段104は本発明の判定手段に対応し、誤認識内容語決定手段105は本発明の誤認識特定単語決定手段に対応し、内容語再入力要求手段106は本発明の再入力要求手段に対応し、本実施の形態の音声認識装置は本発明の文認識装置に対応する。また、本実施の形態の内容語は、本発明の特定単語に対応する。
【0062】
つぎに、本発明の実施の形態3におけるデータベース101に格納されているデータの説明図である図4を参照しながら、本実施の形態における音声認識装置の構成についてより詳しく説明する。
【0063】
データベース101は、あらかじめ学習された内容語同士から構成される、あらかじめ定められたキーワード依存関係を有する標準内容語対として、「(熱い、コーヒー)」、「(コーヒー、飲む)」などを格納する手段である(図4参照)。
【0064】
音声認識手段102は、単語から構成される音声入力された文を音声認識する手段である。
【0065】
内容語選択手段103は、前述した学習済みの内容語の記載された内容語辞書(図示省略)を見て、音声認識された文を構成する単語の内から内容語辞書に記載されている内容語を選択する手段である。
【0066】
判定手段104は、選択された内容語同士から構成される任意内容語対がデータベース101に格納されている標準内容語対であるか否かを判定する手段である。
【0067】
誤認識内容語決定手段105は、データベース101に格納されている標準内容語対ではないと判定された任意内容語対の内の2個以上の任意内容語対に共通する内容語を誤認識内容語として決定する手段である。
【0068】
内容語再入力要求手段106は、誤認識内容語があった場合には、その誤認識内容語に対応する内容語の再入力を要求する手段である。
【0069】
つぎに、本発明の実施の形態3における音声認識装置の動作を説明するための説明図(その1)である図5(a)、および本発明の実施の形態3における音声認識装置の動作を説明するための説明図(その2)である図5(b)を参照しながら、本実施の形態における音声認識装置の動作について説明する。なお、本実施の形態における音声認識装置の動作について説明しながら、本発明の文認識方法の一実施の形態についても説明する。
【0070】
音声認識手段102は、音声入力された文「熱いコーヒーを飲みますか。」を認識文「青いコーヒーを飲みますか。」として(誤って)音声認識する。
【0071】
内容語選択手段103は、認識文「青いコーヒーを飲みますか。」を構成する単語「青い」、「コーヒー」、「を」、「飲み」、「ます」、「か」の内から内容語「青い」、「コーヒー」、「飲む」を選択する(図5(a)参照)。なお、活用語の内容語は終止形(辞書見出し形)として選択されるため、「飲み(連用形)」は「飲む(終止形)」として選択された。
【0072】
判定手段104は、選択された内容語同士から構成される合計3個の任意内容語対「(青い、コーヒー)」、「(青い、飲む)」、「(コーヒー、飲む)」の内、「(コーヒー、飲む)」はデータベース101に格納されている標準内容語対であり、「(青い、コーヒー)」、「(青い、飲む)」はデータベース101に格納されている標準内容語対ではないと判定する(図5(b)参照)。
【0073】
誤認識内容語決定手段105は、データベース101に格納されている標準内容語対ではないと判定された任意内容語対「(青い、コーヒー)」、「(青い、飲む)」の内の2個以上の任意内容語対に共通する内容語「青い」は誤認識内容語であると決定する。
【0074】
内容語再入力要求手段106は、誤認識内容語「青い」に対応する内容語の再入力を要求する。
【0075】
(実施の形態4)
はじめに、本発明の実施の形態4における音声認識装置の構成を示すブロック図である図6を参照しながら、本実施の形態における音声認識装置の構成について説明する。
【0076】
本実施の形態における音声認識装置は、データベース101と、音声認識手段102と、内容語選択手段103と、判定手段104と、文誤認識決定手段105′と、文再入力要求手段106′とを備えている。
【0077】
なお、データベース101は本発明のデータベースに対応し、音声認識手段102は本発明の文認識手段に対応し、内容語選択手段103は本発明の特定単語選択手段に対応し、判定手段104は本発明の判定手段に対応し、文誤認識決定手段105′は本発明の文誤認識決定手段に対応し、文再入力要求手段106′は本発明の文再入力要求手段に対応し、本実施の形態の音声認識装置は本発明の文認識装置に対応する。また、本実施の形態の内容語は、本発明の特定単語に対応する。
【0078】
本実施の形態における音声認識装置は、上述した実施の形態3における音声認識装置の構成と類似した構成を有しているが、文誤認識決定手段105′と、文再入力要求手段106′とを備えている点を特徴としている。
【0079】
そこで、文誤認識決定手段105′と文再入力要求手段106′とについてより詳しく説明する。
【0080】
文誤認識決定手段105′は、データベース101に格納されている標準内容語対であると判定された任意内容語対に全く含まれない内容語を誤認識内容語として決定し、選択された内容語の個数Xと誤認識内容語の個数Yとの間に
【0081】
【数1】
Y>0.4×X
なる関係が成立する場合に入力された文は誤認識されたと決定する手段である。
【0082】
文再入力要求手段106′は、誤認識があった場合には、入力された文の再入力を要求する手段である。
【0083】
つぎに、本実施の形態における音声認識装置の動作について説明する。なお、本実施の形態における音声認識装置の動作について説明しながら、本発明の文認識方法の一実施の形態についても説明する。
【0084】
音声認識手段102は、音声入力された文「地元のビールを飲んではいけませんか。」を認識文「地元のビールを呼んで池千か。」として(誤って)音声認識する。
【0085】
内容語選択手段103は、認識文「地元のビールを呼んで池千か。」を構成する単語「地元」、「の」、「ビール」、「を」、「呼ん」、「で」、「池」、「千」、「か」の内から内容語「地元」、「ビール」、「呼ぶ」、「池」、「千」を選択する。なお、前述した実施の形態3の場合と同様、活用語の内容語は終止形(辞書見出し形)として選択されるため、「呼ん(連用形)」は「呼ぶ(終止形)」として選択された。
【0086】
判定手段104は、選択された内容語同士から構成される合計60個の任意内容語対「(地元、ビール)」、「(地元、呼ぶ)」、「(地元、池)」、「(地元、千)」、…の内、「(地元、ビール)」はデータベース101に格納されている標準内容語対であり、その他の「(地元、呼ぶ)」、「(地元、池)」、「(地元、千)」、…はデータベース101に格納されている標準内容語対ではないと判定する。
【0087】
文誤認識決定手段105′は、データベース101に格納されている標準内容語対であると判定された任意内容語対「(地元、ビール)」に全く含まれない内容語「呼ぶ」、「池」、「千」は誤認識内容語であると決定する。また、文誤認識決定手段105′は、選択された内容語「地元」、「ビール」、「呼ぶ」、「池」、「千」の個数X=5と誤認識内容語「呼ぶ」、「池」、「千」の個数Y=3との間に(数1)の関係が成立するゆえ、入力された文「地元のビールを飲んではいけませんか。」は誤認識されたと決定する。
【0088】
そして、文再入力要求手段106′は、入力された文「地元のビールを飲んではいけませんか。」の再入力を要求する。
【0089】
(実施の形態5)
はじめに、本発明の実施の形態5における文字認識装置の構成を示すブロック図である図7を参照しながら、本実施の形態における文字認識装置の構成について説明する。
【0090】
本実施の形態における文字認識装置は、データベース201〜202と、文字認識手段203と、内容語選択手段204と、内容語クラス決定手段205と、判定手段206と、誤認識内容語決定手段207と、内容語再入力要求手段208とを備えている。
【0091】
なお、データベース201は本発明の第一のデータベースに対応し、データベース202は本発明の第二のデータベースに対応し、文字認識手段203は本発明の文認識手段に対応し、内容語選択手段204は本発明の特定単語選択手段に対応し、内容語クラス決定手段205は本発明の特定単語クラス決定手段に対応し、判定手段206は本発明の判定手段に対応し、誤認識内容語決定手段207は本発明の誤認識特定単語決定手段に対応し、内容語再入力要求手段208は本発明の再入力要求手段に対応し、本実施の形態の文字認識装置は本発明の文認識装置に対応する。また、本実施の形態の内容語は本発明の特定単語に対応し、本実施の形態の内容語クラスは本発明の特定単語クラスに対応する。
【0092】
つぎに、本発明の実施の形態5におけるデータベース201に格納されているデータの説明図である図8(a)、および本発明の実施の形態5におけるデータベース202に格納されているデータの説明図である図8(b)を参照しながら、本実施の形態における文字認識装置の構成についてより詳しく説明する。
【0093】
データベース201は、あらかじめ学習された内容語と内容語の属するあらかじめ定められた内容語クラスとの対応関係として、「ビール−100」、「コーヒー−100」、「地元−200」、「熱い−200」、「飲む−300」、「呼ぶ−400」などを格納する手段である。ここに、「90」はカテゴリ「建築物」に対する内容語クラスの意味コードであり、「100」はカテゴリ「飲料」に対する内容語クラスの意味コードであり、「200」はカテゴリ「飲料の性質」に対する内容語クラスの意味コードであり、「300」はカテゴリ「飲料に関わる動作」に対する内容語クラスの意味コードであり、「400」はカテゴリ「音声に関わる動作」に対する内容語クラスの意味コードである。
【0094】
データベース202は、内容語クラス同士から構成されるあらかじめ定められた共起関係を有する標準内容語クラス対として、「(100、200)」、「(100、300)」などを格納する手段である。
【0095】
文字認識手段203は、単語から構成されるOCR(optical character reader)入力された文を文字認識する手段である。
【0096】
内容語選択手段204は、前述した学習済みの内容語の記載された内容語辞書(図示省略)を見て、文字認識された文を構成する単語の内から内容語辞書に記載されている内容語を選択する手段である。
【0097】
内容語クラス決定手段205は、データベース201に格納されている内容語と内容語クラスとの対応関係を利用して、選択された内容語の属する内容語クラスを決定する手段である。
【0098】
判定手段206は、決定された内容語クラス同士から構成される任意内容語クラス対がデータベース202に格納されている標準内容語クラス対であるか否かを判定する手段である。
【0099】
誤認識内容語決定手段207は、データベース202に格納されている標準内容語クラス対ではないと判定された任意内容語クラス対の内の2個以上の任意内容語クラス対に共通する内容語クラスに属する内容語を誤認識内容語として決定する手段である。
【0100】
内容語再入力要求手段208は、誤認識内容語があった場合には、その誤認識内容語に対応する内容語の再入力を要求する手段である。
【0101】
つぎに、本発明の実施の形態5における音声認識装置の動作を説明するための説明図(その1)である図9(a)、および本発明の実施の形態5における音声認識装置の動作を説明するための説明図(その2)である図9(b)を参照しながら、本実施の形態における文字認識装置の動作について説明する。なお、本実施の形態における文字認識装置の動作について説明しながら、本発明の文認識方法の一実施の形態についても説明する。
【0102】
文字認識手段203は、OCR入力された文「地元のビールを飲みますか。」を認識文「地元のビールを呼びますか。」として(誤って)文字認識する。
【0103】
内容語選択手段204は、認識文「地元のビールを呼びますか。」を構成する単語「地元」、「の」、「ビール」、「を」、「呼び」、「ます」、「か」の内から内容語「地元」、「ビール」、「呼ぶ」を選択する。なお、前述した実施の形態3の場合と同様、活用語の内容語は終止形(辞書見出し形)として選択されるため、「呼び(連用形)」は「呼ぶ(終止形)」として選択された。
【0104】
内容語クラス決定手段205は、データベース201に格納されている内容語と内容語クラスとの対応関係を利用して、選択された内容語「地元」、「ビール」、「呼ぶ」の属する内容語クラスがそれぞれ「200」、「100」、「400」であると決定する。
【0105】
判定手段206は、決定された内容語クラス同士から構成される合計3個の任意内容語クラス対「(100、200)」、「(100、400)」、「(200、400)」の内、「(100、200)」はデータベース202に格納されている標準内容語クラス対であり、「(100、400)」、「(200、400)」はデータベース202に格納されている標準内容語クラス対ではないと判定する。
【0106】
誤認識内容語決定手段207は、データベース202に格納されている標準内容語クラス対ではないと判定された任意内容語クラス対「(100、400)」、「(200、400)」の内の2個以上の任意内容語クラス対に共通する内容語クラス「400」に属する内容語「呼ぶ」は誤認識内容語であると決定する。
【0107】
内容語再入力要求手段208は、誤認識内容語「呼ぶ」に対応する内容語の再入力を要求する。
【0108】
(実施の形態6)
はじめに、本発明の実施の形態6における文字認識装置の構成を示すブロック図である図10を参照しながら、本実施の形態における文字認識装置の構成について説明する。
【0109】
本実施の形態における文字認識装置は、データベース201〜202と、文字認識手段203と、内容語選択手段204と、内容語クラス決定手段205と、判定手段206と、文誤認識決定手段207′と、文再入力要求手段208′とを備えている。
【0110】
なお、データベース201は本発明の第一のデータベースに対応し、データベース202は本発明の第二のデータベースに対応し、文字認識手段203は本発明の文認識手段に対応し、内容語選択手段204は本発明の特定単語選択手段に対応し、内容語クラス決定手段205は本発明の特定単語クラス決定手段に対応し、判定手段206は本発明の判定手段に対応し、文誤認識決定手段207′は本発明の文誤認識決定手段に対応し、文再入力要求手段208′は本発明の文再入力要求手段に対応し、本実施の形態の文字認識装置は本発明の文認識装置に対応する。また、本実施の形態の内容語は本発明の特定単語に対応し、本実施の形態の内容語クラスは本発明の特定単語クラスに対応する。
【0111】
本実施の形態における音声認識装置は、上述した実施の形態3における音声認識装置の構成と類似した構成を有しているが、文誤認識決定手段207′と文再入力要求手段208′とを備えている点を特徴としている。
【0112】
そこで、文誤認識決定手段207′と文再入力要求手段208′とについてより詳しく説明する。
【0113】
文誤認識決定手段207′は、データベース202に格納されている標準内容語クラス対であると判定された任意内容語クラス対に全く含まれない内容語を誤認識内容語として決定し、選択された内容語の個数Xと誤認識内容語の個数Yとの間に
【0114】
【数2】
Y>0.5×X
なる関係が成立する場合に入力された文は誤認識されたと決定する手段である。
【0115】
文再入力要求手段208′は、誤認識があった場合には、入力された文の再入力を要求する手段である。
【0116】
つぎに、本発明の実施の形態6における音声認識装置の構成を示すブロック図である図10を参照しながら、本実施の形態における文字認識装置の動作について説明する。なお、本実施の形態における文字認識装置の動作について説明しながら、本発明の文認識方法の一実施の形態についても説明する。
【0117】
文字認識手段203は、OCR入力された文「地元のビールを飲みませんか。」を認識文「地元のビルを飲みませんか。」として(誤って)文字認識する。
【0118】
内容語選択手段204は、認識文「地元のビルを呼びませんか。」を構成する単語「地元」、「の」、「ビル」、「を」、「呼び」、「ませ」、「ん」、「か」の内から内容語「地元」、「ビル」、「呼ぶ」を選択する。なお、前述した実施の形態3の場合と同様、活用語の内容語は終止形(辞書見出し形)として選択されるため、「呼び(連用形)」は「呼ぶ(終止形)」として選択された。
【0119】
内容語クラス決定手段205は、データベース201に格納されている内容語と内容語クラスとの対応関係を利用して、選択された内容語「地元」、「ビル」、「呼ぶ」の属する内容語クラスがそれぞれ「200」、「90」、「400」であると決定する。
【0120】
判定手段206は、決定された内容語クラス同士から構成される合計3個の任意内容語クラス対「(90、200)」、「(90、400)」、「(200、400)」の内、データベース202に格納されている標準内容語クラス対は全くないと判定する。
【0121】
文誤認識決定手段207′は、選択された内容語「地元」、「ビル」、「呼ぶ」は全て誤認識内容語であると決定する。また、文誤認識決定手段207′は、選択された内容語「地元」、「ビル」、「呼ぶ」の個数X=3と誤認識内容語「地元」、「ビル」、「呼ぶ」の個数Y=3との間に(数2)の関係が成立するゆえ、入力された文「地元のビールを飲んではいけませんか。」は誤認識されたと決定する。
【0122】
そして、文再入力要求手段208′は、入力された文「地元のビールを飲みませんか。」の再入力を要求する。
【0123】
以上においては、本実施の形態1〜6について詳細に説明した。
【0124】
なお、本発明の再入力要求手段は、上述した本実施の形態3、5においては、誤認識特定単語があった場合にはその誤認識特定単語に対応する特定単語の再入力を要求したが、これに限らず、たとえば、誤認識特定単語があった場合には入力された文の再入力を要求してもよい。
【0125】
もちろん、誤認識特定単語があった場合(誤認識があった場合)にはその旨をユーザに通知する通知手段が備えられていてもよい。たとえば、音声やテキストを利用して「名前の部分が(一部)聞き取れませんでした」のようなメッセージをユーザに通知することによっても、上述の再入力の要求と類似した効果を奏するものである。
【0126】
なお、発明には、上述した本発明の文認識装置の全部または一部の手段(または、装置、素子、回路、部など)の機能をコンピュータにより実行させるためのプログラムであって、コンピュータと協働して動作するプログラムが含まれる。もちろん、コンピュータは、CPUなどの純然たるハードウェアに限らず、ファームウェアやOS、さらに周辺機器を含むものであっても良い。
【0127】
また、本発明には、上述した本発明の文認識方法の全部または一部のステップ(または、工程、動作、作用など)の動作をコンピュータにより実行させるためのプログラムであって、コンピュータと協働して動作するプログラムが含まれる。
【0128】
なお、本発明の一部の手段(または、装置、素子、回路、部など)、本発明の一部のステップ(または、工程、動作、作用など)は、それらの複数の手段またはステップの内の幾つかの手段またはステップを意味する、あるいは一つの手段またはステップの内の一部の機能または一部の動作を意味するものである。
【0129】
また、本発明の一部の装置(または、素子、回路、部など)は、それら複数の装置の内の幾つかの装置を意味する、あるいは一つの装置の内の一部の手段(または、素子、回路、部など)を意味する、あるいは一つの手段の内の一部の機能を意味するものである。
【0130】
また、本発明のプログラムを記録した、コンピュータに読みとり可能な記録媒体も本発明に含まれる。また、本発明のプログラムの一利用形態は、コンピュータにより読み取り可能な記録媒体に記録され、コンピュータと協働して動作する態様であっても良い。また、本発明のプログラムの一利用形態は、伝送媒体中を伝送し、コンピュータにより読みとられ、コンピュータと協働して動作する態様であっても良い。また、記録媒体としては、ROM等が含まれ、伝送媒体としては、インターネット等の伝送媒体、光・電波・音波等が含まれる。
【0131】
なお、本発明の構成は、ソフトウェア的に実現しても良いし、ハードウェア的に実現しても良い。
【0132】
また、発明には、上述した本発明の文認識装置の全部または一部の手段の全部または一部の機能をコンピュータにより実行させるためのプログラムを担持した媒体であり、コンピュータにより読み取り可能かつ読み取られた前記プログラムが前記コンピュータと協動して前記機能を実行する媒体が含まれる。
【0133】
また、本発明には、上述した本発明の文認識方法の全部または一部のステップの全部または一部の動作をコンピュータにより実行させるためのプログラムを担持した媒体であり、コンピュータにより読み取り可能かつ読み取られた前記プログラムが前記コンピュータと協動して前記動作を実行する媒体が含まれる。
【0134】
なお、上述の文献の全ての開示は、そっくりそのままここに引用(参照)することにより、一体化される。
【0135】
【発明の効果】
以上述べたところから明らかなように、本発明は、音声認識やテキスト文認識を利用して適切な文認識を行うことができるという長所を有する。
【図面の簡単な説明】
【図1】本発明の実施の形態1における再入力要求手段の構成を示すブロック図である。
【図2】本発明の実施の形態2における再入力要求手段の構成を示すブロック図である。
【図3】本発明の実施の形態3における音声認識装置の構成を示すブロック図である。
【図4】本発明の実施の形態3におけるデータベース101に格納されているデータの説明図である。
【図5】(a)本発明の実施の形態3における音声認識装置の動作を説明するための説明図(その1)である。(b)本発明の実施の形態3における音声認識装置の動作を説明するための説明図(その2)である。
【図6】本発明の実施の形態4における音声認識装置の構成を示すブロック図である。
【図7】本発明の実施の形態5における音声認識装置の構成を示すブロック図である。
【図8】(a)本発明の実施の形態5におけるデータベース201に格納されているデータの説明図である。
(b)本発明の実施の形態5におけるデータベース202に格納されているデータの説明図である。
【図9】(a)本発明の実施の形態5における音声認識装置の動作を説明するための説明図(その1)である。
(b)本発明の実施の形態5における音声認識装置の動作を説明するための説明図(その2)である。
【図10】本発明の実施の形態6における音声認識装置の構成を示すブロック図である。
【符号の説明】
1 タグ付きコーパス
2 依存関係分析
3 重要語依存関係表
4 重要語辞書
5 音声認識
6 重要語抽出
7 誤認識単語推定
8 リジェクト決定
9 結果文生成
10 単語クラス決定
11 重要語クラス依存関係表
12 シソーラス辞書
Claims (26)
- あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対を格納するデータベースと、
複数の単語から構成される入力された文を認識する文認識手段と、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択手段と、
前記選択された複数の特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定手段と、
前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識手段により誤って認識された誤認識特定単語を決定する誤認識特定単語決定手段とを備えた文認識装置。 - 前記誤認識特定単語決定手段は、前記データベースに格納されている標準特定単語対ではないと判定された任意特定単語対の内の所定個以上の任意特定単語対に共通する特定単語を前記誤認識特定単語として決定する請求項1記載の文認識装置。
- 前記誤認識特定単語があった場合には、(1)その誤認識特定単語に対応する特定単語の再入力、または(2)前記入力された文の再入力を要求する再入力要求手段を備えた請求項1または2記載の文認識装置。
- 前記誤認識特定単語があった場合には、その旨をユーザに通知する通知手段を備えた請求項1または2記載の文認識装置。
- あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対を格納するデータベースと、
複数の単語から構成される入力された文を認識する文認識手段と、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択手段と、
前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定手段と、
前記判定の結果に基づいて、前記入力された文が前記文認識手段により誤認識されたか否かを決定する文誤認識決定手段とを備えた文認識装置。 - 前記誤認識があった場合には、前記入力された文の再入力を要求する文再入力要求手段を備えた請求項5記載の文認識装置。
- 前記誤認識があった場合には、その旨をユーザに通知する通知手段を備えた請求項5記載の文認識装置。
- あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を格納する第一のデータベースと、
複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を格納する第二のデータベースと、
複数の単語から構成される入力された文を認識する文認識手段と、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択手段と、
前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定手段と、
前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定手段と、
前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識手段により誤って認識された誤認識特定単語を決定する誤認識特定単語決定手段とを備えた文認識装置。 - 前記誤認識特定単語決定手段は、前記第二のデータベースに格納されている標準特定単語クラス対ではないと判定された任意特定単語クラス対の内の所定個以上の任意特定単語クラス対に共通する特定単語クラスに属する特定単語を前記誤認識特定単語として決定する請求項8記載の文認識装置。
- 前記誤認識特定単語があった場合には、(1)その誤認識特定単語に対応する特定単語の再入力、または(2)前記入力された文の再入力を要求する再入力要求手段を備えた請求項8または9記載の文認識装置。
- 前記誤認識特定単語があった場合には、その旨をユーザに通知する通知手段を備えた請求項8または9記載の文認識装置。
- あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を格納する第一のデータベースと、
複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を格納する第二のデータベースと、
複数の単語から構成される入力された文を認識する文認識手段と、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択手段と、
前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定手段と、
前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定手段と、
前記判定の結果に基づいて、前記入力された文が前記文認識手段により誤認識されたか否かを決定する文誤認識決定手段とを備えた文認識装置。 - 前記誤認識があった場合には、前記入力された文の再入力を要求する文再入力要求手段を備えた請求項12記載の文認識装置。
- 前記誤認識があった場合には、その旨をユーザに通知する通知手段を備えた請求項12記載の文認識装置。
- あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対を格納するデータベースを用いた文認識方法であって、
複数の単語から構成される入力された文を認識する文認識ステップと、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、
前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定ステップと、
前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識ステップにより誤って認識された誤認識特定単語を決定する誤認識特定単語決定ステップとを備えた文認識方法。 - あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対を格納するデータベースを用いた文認識方法であって、
複数の単語から構成される入力された文を認識する文認識ステップと、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、
前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定ステップと、
前記判定の結果に基づいて、前記入力された文が前記文認識ステップにより誤認識されたか否かを決定する文誤認識決定ステップとを備えた文認識方法。 - あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を格納する第一のデータベースと、
複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を格納する第二のデータベースとを用いた文認識方法であって、
複数の単語から構成される入力された文を認識する文認識ステップと、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、
前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定ステップと、
前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定ステップと、
前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識ステップにより誤って認識された誤認識特定単語を決定する誤認識特定単語決定ステップとを備えた文認識方法。 - あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を格納する第一のデータベースと、
複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を格納する第二のデータベースとを用いた文認識方法であって、
複数の単語から構成される入力された文を認識する文認識ステップと、
前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、
前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定ステップと、
前記決定された特定単語クラス同士から構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定ステップと、
前記判定の結果に基づいて、前記入力された文が前記文認識ステップにより誤認識されたか否かを決定する文誤認識決定ステップとを備えた文認識方法。 - あらかじめ定められた複数の特定単語同士から構成される、あらかじめ定められた複数の標準特定単語対をデータベースに格納する格納ステップと、複数の単語から構成される入力された文を認識する文認識ステップと、前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定ステップと、前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識ステップにより誤って認識された誤認識特定単語を決定する誤認識特定単語決定ステップとの全部または一部をコンピュータに実行させるためのプログラム。
- あらかじめ定められた複数の特定単語から構成される、あらかじめ定められた複数の標準特定単語対をデータベースに格納する格納ステップと、複数の単語から構成される入力された文を認識する文認識ステップと、前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、前記選択された特定単語から構成される任意特定単語対が前記データベースに格納されている標準特定単語対であるか否かを判定する判定ステップと、前記判定の結果に基づいて、前記入力された文が前記文認識ステップにより誤認識されたか否かを決定する文誤認識決定ステップとの全部または一部をコンピュータに実行させるためのプログラム。
- あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を第一のデータベースに格納する第一の格納ステップと、複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を第二のデータベースに格納する第二の格納ステップと、複数の単語から構成される入力された文を認識する文認識ステップと、前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定ステップと、前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定ステップと、前記判定の結果に基づいて、前記選択された特定単語の内から前記文認識ステップにより誤って認識された誤認識特定単語を決定する誤認識特定単語決定ステップとの全部または一部をコンピュータに実行させるためのプログラム。
- あらかじめ定められた複数の特定単語と、前記特定単語の属する、あらかじめ定められた複数の特定単語クラスとの対応関係を第一のデータベースに格納する第一の格納ステップと、複数の前記特定単語クラスから構成される、あらかじめ定められた複数の標準特定単語クラス対を第二のデータベースに格納する第二の格納ステップと、複数の単語から構成される入力された文を認識する文認識ステップと、前記認識された文を構成する複数の単語の内から前記特定単語を複数選択する特定単語選択ステップと、前記第一のデータベースに格納されている対応関係を利用して、前記選択された特定単語各々の属する前記特定単語クラスを複数決定する特定単語クラス決定ステップと、前記決定された特定単語クラスから構成される任意特定単語クラス対が前記第二のデータベースに格納されている標準特定単語クラス対であるか否かを判定する判定ステップと、前記判定の結果に基づいて、前記入力された文が前記文認識ステップにより誤認識されたか否かを決定する文誤認識決定ステップとの全部または一部をコンピュータに実行させるためのプログラム。
- 請求項19記載のプログラムを担持した媒体であって、コンピュータにより処理可能な媒体。
- 請求項20記載のプログラムを担持した媒体であって、コンピュータにより処理可能な媒体。
- 請求項21記載のプログラムを担持した媒体であって、コンピュータにより処理可能な媒体。
- 請求項22記載のプログラムを担持した媒体であって、コンピュータにより処理可能な媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002024427A JP3621922B2 (ja) | 2001-02-01 | 2002-01-31 | 文認識装置、文認識方法、プログラム、および媒体 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001-25209 | 2001-02-01 | ||
JP2001025209 | 2001-02-01 | ||
JP2002024427A JP3621922B2 (ja) | 2001-02-01 | 2002-01-31 | 文認識装置、文認識方法、プログラム、および媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002351494A JP2002351494A (ja) | 2002-12-06 |
JP3621922B2 true JP3621922B2 (ja) | 2005-02-23 |
Family
ID=26608747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002024427A Expired - Lifetime JP3621922B2 (ja) | 2001-02-01 | 2002-01-31 | 文認識装置、文認識方法、プログラム、および媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3621922B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008033198A (ja) * | 2006-08-01 | 2008-02-14 | Nec System Technologies Ltd | 音声対話システム、音声対話方法、音声入力装置、プログラム |
JP5325176B2 (ja) * | 2010-07-20 | 2013-10-23 | 日本電信電話株式会社 | 2チャネル音声の音声認識方法とその装置とプログラム |
WO2014116199A1 (en) * | 2013-01-22 | 2014-07-31 | Interactive Intelligence, Inc. | False alarm reduction in speech recognition systems using contextual information |
-
2002
- 2002-01-31 JP JP2002024427A patent/JP3621922B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2002351494A (ja) | 2002-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9911413B1 (en) | Neural latent variable model for spoken language understanding | |
KR100655491B1 (ko) | 음성인식 시스템에서의 2단계 발화 검증 방법 및 장치 | |
US8768700B1 (en) | Voice search engine interface for scoring search hypotheses | |
US7139698B1 (en) | System and method for generating morphemes | |
US8200491B2 (en) | Method and system for automatically detecting morphemes in a task classification system using lattices | |
US7437291B1 (en) | Using partial information to improve dialog in automatic speech recognition systems | |
US7421387B2 (en) | Dynamic N-best algorithm to reduce recognition errors | |
KR101309042B1 (ko) | 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법 | |
US8165877B2 (en) | Confidence measure generation for speech related searching | |
US6738745B1 (en) | Methods and apparatus for identifying a non-target language in a speech recognition system | |
US8024188B2 (en) | Method and system of optimal selection strategy for statistical classifications | |
EP2028645B1 (en) | Method and system of optimal selection strategy for statistical classifications in dialog systems | |
WO2002061728A1 (fr) | Dispositif de reconnaissance de phrases, procede de reconnaissance de phrases, programme et support | |
US6618702B1 (en) | Method of and device for phone-based speaker recognition | |
US7680661B2 (en) | Method and system for improved speech recognition | |
JP4680714B2 (ja) | 音声認識装置および音声認識方法 | |
US20130185059A1 (en) | Method and System for Automatically Detecting Morphemes in a Task Classification System Using Lattices | |
US20030191625A1 (en) | Method and system for creating a named entity language model | |
US11526512B1 (en) | Rewriting queries | |
JP3621922B2 (ja) | 文認識装置、文認識方法、プログラム、および媒体 | |
Raymond et al. | Automatic learning of interpretation strategies for spoken dialogue systems | |
Wang et al. | Confidence measures for voice search applications. | |
KR101065941B1 (ko) | 음성에 포함된 단어간의 관계를 이용하는 음성언어 주제판별 시스템 및 그 방법 | |
Wakita et al. | Fine keyword clustering using a thesaurus and example sentences for speech translation. | |
Raymond et al. | On the use of confidence for statistical decision in dialogue strategies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20040608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20040805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20041116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20041119 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 3621922 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071126 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081126 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091126 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091126 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101126 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111126 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121126 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121126 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131126 Year of fee payment: 9 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |