[第1実施形態]
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、以下の説明では、開示の技術に係る頻度算出装置の一例として汎用装置であるコンピュータを例に挙げて説明するが、開示の技術はこれに限定されるものではない。開示の技術は、例えば、頻度算出のための専用装置、または頻度算出のためのデバイスを装着した基板などに適用可能である。
一例として図1に示すコンピュータ10は、単語検出部12、補正値算出部14、頻度算出部16、及び記憶部18を有する。単語検出部12は、記憶部18及び頻度算出部16と接続されている。補正値算出部14は、頻度算出部16及び記憶部18と接続されている。
記憶部18は、少なくとも1つの音声データを含む音声データ群68B及び少なくとも1つの所定の単語を含む単語辞書テーブル68Aを生成するためのデータを記憶している。音声データ群68Bは、例えば、音声データA、音声データB、及び音声データCを含む。単語検出部12は、音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する。補正値算出部14は、補正値を算出する。補正値は、検出される単語の読み情報に基づいて定まり、かつ、検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて検出頻度に含まれたと推定される誤検出割合を補正するために、算出される。頻度算出部16は、検出頻度に補正値を適用することにより、検出頻度に含まれる誤検出割合が補正された推定検出頻度を算出する。
コンピュータ10は、一例として図2に示すように、CPU(Central Processing Unit)60、1次記憶部62、2次記憶部64、及び外部インターフェイス70を備えている。CPU60、1次記憶部62、2次記憶部64、及び外部インターフェイス70は、バス78を介して接続されている。
外部インターフェイス70には、図示しない外部装置が接続され、外部装置とCPU60との間の各種情報の送受信を司る。
1次記憶部62は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。2次記憶部64は、例えば、HDD(Hard Disk Drive)、またはSSD(Solid State Drive)などの不揮発性のメモリである。1次記憶部62及び2次記憶部64は、図1の記憶部18として機能する。
2次記憶部64は、一例として、単語検出サブプログラム66A、補正値算出サブプログラム66B、及び頻度算出サブプログラム66Cを含む頻度算出プログラム66を記憶している。また、2次記憶部64は、単語辞書テーブル68Aを生成するためのデータ及び音声データ群68Bを記憶している。
単語辞書テーブル68Aを生成するためのデータは、1次記憶部62に展開され、単語辞書テーブル68Aが生成される。図3に単語辞書テーブル68Aの概念図を示す。単語辞書テーブル68Aは、単語の表記を含む表記フィールドと、当該表記に対応する読みを含む読みフィールドと、を有する。例えば、表記が「タブレット」である単語レコードでは、対応する読みは「たぶれっと」である。単語辞書テーブル68Aには、音声データ群68Bに含まれる音声データA、B及びCから検出する単語に対応する単語レコードが予め登録されている。
CPU60は、2次記憶部64から単語検出サブプログラム66A、補正値算出サブプログラム66B、及び頻度算出サブプログラム66Cを読み出して1次記憶部62に展開する。CPU60は、単語検出サブプログラム66Aを実行することで、図1に示す単語検出部12として動作する。CPU60は、補正値算出サブプログラム66Bを実行することで、図1に示す補正値算出部14として動作する。CPU60は、頻度算出サブプログラム66Cを実行することで、図1に示す頻度算出部16として動作する。
単語検出サブプログラム66A、補正値算出サブプログラム66B、及び頻度算出サブプログラム66Cを実行することにより行われる図4に例示する頻度算出処理は、例えば、ユーザがキーボードの所定のキーを押下することにより、開始される。ステップ102で、CPU60は、音声データAに音声認識処理を適用し、例えば、単語辞書テーブル68Aに含まれている単語「タブレット」、「パソコン」、及び「携帯電話」の検出を行い、単語毎の検出頻度を取得する。
単語検出サブプログラム66Aに含まれている音声認識処理では、音声データAから特徴パタンを抽出し、2次記憶部64に予め記憶されている図示しない単語の各々の音声の特徴を有する音響モデルと特徴パタンとを照合する。次に、音響モデルと特徴パタンとの一致度が所定の閾値よりも大きい場合は、当該特徴パタンを音響モデルに対応する単語として検出する。ここでは、図5に示されるように、例えば、単語「タブレット」が8個、単語「パソコン」が1個、単語「携帯電話」が0個検出される。すなわち、単語「タブレット」の検出頻度は8個、単語「パソコン」の検出頻度は1個、単語「携帯電話」の検出頻度は0個である。
次に、CPU60は、音声データBに音声認識処理を適用し、ここでは、図5に示されるように、例えば、単語「タブレット」が3個、単語「パソコン」が3個、単語「携帯電話」が1個検出された例が示されている。また、CPU60は、音声データCに音声認識処理を適用し、ここでは、図5に示されるように、例えば、単語「タブレット」が0個、単語「パソコン」が2個、単語「携帯電話」が5個検出される。
次に、ステップ104で、CPU60は、検出頻度に含まれる誤検出割合を補正する補正値を算出する。補正値は、検出される単語の読み情報に基づいて定まる、検出される単語が誤検出され易い程度を示す特徴に基づいて、検出頻度に含まれる誤検出割合を補正するために、算出される。ここでは、特徴として読み情報の1つである単語の拍数を用いる。詳細には、拍数が多くなるに従って、小さくなる誤検出割合を補正するための補正値を算出する。拍数が多くなるに従って、音声データの特徴パタンと照合される音響モデルも長くなるため、単語が誤検出され難くなり、当該単語が正しく検出される可能性が高くなる。すなわち、拍数は、「検出される単語が誤検出され易い程度を示す特徴」となる。
ここでは、例えば、以下の(1)式を用いて、補正値を算出する。
補正値=min(1,0.5+拍数×0.05) …(1)
関数min(x,y)は、x,yのうち小さい方を表す。
単語「タブレット」、「パソコン」、及び「携帯電話」の各々の拍数は、5個、4個、及び7個であるから、図6に示されるように、ここでは、各単語の補正値は、0.75、0.70、及び0.85である。なお、1拍は、短母音のみもしくは子音と短母音のみの短い音節1つ分の長さに該当し、長音「ー」、撥音「ッ」、「ン」なども1拍としてカウントされる。
次に、ステップ106で、CPU60は、単語の各々の検出頻度に補正値を適用することにより、推定検出頻度を算出する。ここでは、例えば、以下の(2)式を用いて、推定検出頻度を算出する。
推定検出頻度=検出頻度×補正値 …(2)
図5に示した例では、図7に示されるように、音声データAでは、例えば、単語「タブレット」の推定検出頻度が6.00個、単語「パソコン」の推定検出頻度が0.70個、単語「携帯電話」の推定検出頻度が0.00個として算出される。また、音声データBでは、例えば、単語「タブレット」の推定検出頻度が2.25個、単語「パソコン」の推定検出頻度が2.10個、単語「携帯電話」の推定検出頻度が0.85個として算出される。また、音声データCでは、例えば、単語「タブレット」の推定検出頻度が0.00個、単語「パソコン」の推定検出頻度が1.40個、単語「携帯電話」の推定検出頻度が4.25個として算出される。
ここで、補正値は、誤検出されて検出頻度に含まれたと推定される誤検出割合を補正するためのものであり、誤検出割合は(1−補正値)で表される。すなわち、補正値は、検出頻度に、「検出頻度×(1−補正値)」個の誤検出分が含まれているとみなし、この誤検出分を除外した推定検出頻度を算出するためのものである。例えば、音声データAでは、単語「タブレット」の検出頻度には、誤検出割合0.25、すなわち2個(8×0.25)の誤検出分が含まれているとみなした補正値0.75を検出頻度に乗ずることにより、推定検出頻度が6.00個と算出されている。誤検出割合0.25は、1−0.75(=補正値)である。
なお、単語辞書テーブル68Aは、表記フィールド及び読みフィールドを有するものとしたが、開示の技術はこれに限定されない。単語辞書テーブル68Aは、例えば、表記フィールドのみを有し、表記フィールドに含まれる表記に基づいて読みを生成するようにしてもよい。また、表記フィールド及び読みフィールドに加えて、音響モデルを含む音響モデルフィールドを有していてもよい。
単語辞書テーブル68Aを生成するためのデータは、予め2次記憶部64に記憶されているものとしたが、開示の技術はこれに限定されない。例えば、単語辞書テーブル68A生成するためのデータは、外部インターフェイス70を介して、外部装置から2次記憶部64に送信されてもよい。
音声データA、B、及びCは、予め2次記憶部64に記憶されているものとしたが、開示の技術はこれに限定されない。例えば、音声データは、外部インターフェイス70を介して、電話などの音声を入力する外部装置から2次記憶部64に送信されてもよい。
音声データA、B、及びCが音声データ群68Bに含まれているものとしたが、開示の技術はこれに限定されない。例えば、音声データ群68Bに含まれる音声データは、1個または2個であってもよいし、3個より多くてもよい。
図4に例示する頻度算出処理は、ユーザがキーボードの所定のキーを押下することにより、開始されるものとしたが、開示の技術はこれに限定されない。例えば、外部インターフェイス70を介して、外部装置から2次記憶部64に音声データが送信された場合に、頻度算出処理が開始されてもよい。
また、「検出される単語が誤検出され易い程度を示す特徴」として、読み情報の1つである拍数を用いたが、開示の技術はこれに限定されない。例えば、他の読み情報として、音節数、または音素数などが使用されてもよい。
ステップ102で単語毎の検出頻度を取得する前にステップ104で単語毎の補正値を算出してもよい。また、単語毎の補正値を頻度算出処理において算出せず、予め、単語毎の補正値を算出して、2次記憶部64に記憶しておいてもよい。予め補正値を記憶しておく場合、補正値の算出は外部装置で行ってもよい。この場合、「補正値算出部14」を省略することができる。
算出された補正値及び推定検出頻度は、例えば、2次記憶部64に記憶されてもよいし、外部インターフェイス70を介して外部装置に送信されてもよい。
(1)式は、以下の(1A)式のように、パーセント(%)を用いて率で表されてもよい。
補正率=min(100%,50%+拍数×5%) …(1A)
また、(1)式において用いられている数値0.5及び0.05は一例であり、開示の技術は、当該数値及び数式に限定されるものではない。単語の拍数が多くなるに従って小さくなる誤検出割合を補正するための補正値を算出するために適切な数値及び数式を選択することが可能である。
第1実施形態によれば、単語検出部12は、音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する。補正値算出部14は、検出される単語の読み情報に基づいて定まる、検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて、検出頻度に含まれたと推定される誤検出割合を補正するための補正値を算出する。頻度算出部16は、検出頻度に補正値を適用することにより、検出頻度に含まれる誤検出割合が補正された推定検出頻度を算出する。したがって、開示の技術によれば、対応する文字データが存在しない場合でも精度よく単語毎の推定検出頻度を取得することができる。
また、補正値算出部14は、所定の単語の拍数が多くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。拍数が多くなるに従って、音声データの特徴パタンと照合される音響モデルも長くなるため、単語が誤検出され難くなり、当該単語が正しく検出される可能性が高くなるためである。したがって、開示の技術によれば、誤検出割合の推定精度を向上させることができる。
[第2実施形態]
第2実施形態の構成は、図8に示すように、記憶部18が文字データテーブル68Cを生成するためのデータをさらに記憶している点で、第1実施形態と相違する。また、図9に示すように、記憶部18として機能する2次記憶部64が文字データテーブル68Cを生成するためのデータをさらに記憶している点で、第1実施形態と相違する。以下、第1実施形態と同様の構成については説明を省略する。
図10に文字データテーブル68Cの一例を示す。図10に示す文字データテーブル68Cは、文章の表記を含む表記フィールドを有する。
図11に例示する第2実施形態の頻度算出処理のステップ202及びステップ206は、第1実施形態の頻度算出処理のステップ102及びステップ106と同様であるので、説明を省略する。
ステップ204では、CPU60は、検出頻度に含まれる誤検出割合を補正するための補正値を算出する。CPU60は、まず、文字データテーブル68Cの文字データレコードの表記を図12に示すように、読みに変換する。例えば、文字データレコードの表記「タブレットの型番はどこに書いてありますか」は、読み「たぶれっとのかたばんわどこにかいてありますか」に変換される。
CPU60は、次に、図3に例示する単語辞書に含まれる単語と読みが類似する単語パタン(以下、類似単語パタン)を生成する。類似単語パタンは、例えば、単語の1拍を、元の拍と異なる拍に置き換えることによって生成される。例えば、「たぶれっと」の類似単語パタンは、図13の類似した単語パタン群フィールドに示すように、「*ぶれっと」、「た*れっと」、「たぶ*っと」、「たぶれ*と」、「たぶれっ*」である。*は、元の拍とは異なる拍を表す。したがって、「*ぶれっと」では、*は、「た」とは異なる拍である。
CPU60は、次に、文字データテーブル68Cの文字データレコードに対応する読みから単語辞書テーブル68Aに含まれる単語の類似単語パタンを検出し、当該類似単語パタンの検出頻度を取得する。ここで、単語辞書テーブル68Aに含まれる単語、例えば、「たぶれっと」の検出は行わない。
図14に示すように、「*ぶれっと」に対応する「さぶれっと」が文字データレコードに対応する読み「さぶれっとについてげんちのじょーほーおおしえてください」に含まれる。したがって、単語辞書テーブル68Aに含まれる類似単語パタンの検出頻度は、図15に示すように、単語「タブレット」について1となる。
図10には、3個の文字データレコードのみを示しているが、さらに、多くの文字データレコードに対して、単語辞書テーブル68Aに含まれる単語毎の類似単語パタンの検出頻度を取得する。例えば、図16に示す例では、単語「タブレット」の類似単語パタンの検出頻度は、5000個、単語「パソコン」の類似単語パタンの検出頻度は、200個、単語「携帯電話」の類似単語パタンの検出頻度は、10個である。なお、これらの検出頻度は、説明のための例示である。
次に、CPU60は、単語辞書テーブル68Aに含まれている単語「タブレット」、「パソコン」、及び「携帯電話」の各々の読み情報に基づいて、補正値を算出する。ここでは、読み情報として、単語辞書テーブル68Aに含まれる単語の類似単語パタンの検出頻度を用いる。文字データテーブル68Cからの単語辞書テーブル68Aに含まれる単語の類似単語パタンの検出頻度が低くなるに従って指数関数的に小さくなる誤検出割合を補正するための補正値を算出する。
文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語の類似単語パタンが多く含まれるということは、当該類似単語パタンが出現する可能性が高いということである。したがって、単語辞書テーブル68Aに含まれる単語と、類似単語パタンと、を誤って、音声データA、B及びCから検出する可能性が高くなる。すなわち、文字データテーブル68Cにおける単語辞書テーブル68Aに含まれる単語の類似単語パタンの検出頻度は、「検出される単語が誤検出され易い程度を示す特徴」となる。
ここでは、例えば、以下の(3)式を用いて補正値を算出する。
補正値=1−0.1log10(類似単語パタンの検出頻度)…(3)
図16に示すように、単語「タブレット」、「パソコン」、及び「携帯電話」の各々の類似単語パタンの検出頻度が、5000個、200個、及び10個である場合、図17に示されるように、ここでは、補正値は、0.63、0.77、及び0.90となる。
なお、文字データテーブル68Cは、予め2次記憶部64に記憶されているものとしたが、開示の技術はこれに限定されない。例えば、文字データテーブル68Cは、外部インターフェイス70を介して、外部装置から2次記憶部64に送信されてもよい。文字データテーブル68Cは、例えば、言語コーパスであってよい。
また、文字データテーブル68Cに替えて、蓄積されている大量の音声データ群を用いてもよい。この場合、類似単語パタンの検出は、音声認識処理によって行われる。
文字データテーブル68Cの表記に対応する読みは、文字データテーブル68Cの表記を変換して取得されるものとしたが、開示の技術はこれに限定されない。例えば、文字データテーブル68Cの表記に対応する読みは、予め、2次記憶部64に記憶されていてもよい。
(3)式は、以下の(3A)式のように、パーセント(%)を用いて率で表されてもよい。
補正率=100%−10log10(類似単語パタンの検出頻度)…(3A)
また、(3)式において用いられている数値0.1は一例であり、開示の技術は、当該数値及び数式に限定されるものではない。文字データテーブル68Cに含まれる所定の単語と読みが類似する単語の検出頻度が低くなるに従って小さくなる誤検出割合を補正するための補正値を算出するために適切な数値及び数式を選択することが可能である。
(3)式において、対数を使用し、補正値が指数関数的に増減するものとしたが、開示の技術はこれに限定されない。
第2実施形態によれば、単語検出部12は、音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する。補正値算出部14は、検出される単語の読み情報に基づいて定まる、検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて検出頻度に含まれたと推定される誤検出割合を補正するための補正値を算出する。頻度算出部16は、検出頻度に補正値を適用することにより、検出頻度に含まれる誤検出割合が補正された推定検出頻度を算出する。したがって、開示の技術によれば、対応する文字データが存在しない場合でも精度よく単語毎の推定検出頻度を取得することができる。
補正値算出部14は、文字データテーブル68Cに含まれる所定の単語と読みが類似する単語の検出頻度が低くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語の類似単語パタンが多く含まれると、単語辞書テーブル68Aに含まれる単語と、類似単語パタンと、を誤って、音声データA、B及びCから、検出する可能性が高くなるためである。したがって、開示の技術によれば、誤検出割合の推定精度を向上させることができる。
[第3実施形態]
第3実施形態の構成は、第2実施形態と同様であるため、説明を省略する。
第3実施形態の頻度算出処理において、CPU60は、図11のステップ204において、さらに、文字データテーブル68Cから単語辞書テーブル68Aに含まれる単語と読みが一致する単語(以下、一致単語)を検出し、当該一致単語の検出頻度を取得する。一例として、図18に示すように、単語辞書テーブル68Aに含まれる単語「タブレット」の一致単語の検出頻度は、10000個、単語辞書テーブル68Aに含まれる単語「パソコン」の一致単語の検出頻度は、2000個である。また、単語辞書テーブル68Aに含まれる単語「携帯電話」の一致単語の検出頻度は、10個である。なお、これらの検出頻度は、説明のための例示である。
次に、CPU60は、単語辞書テーブル68Aに含まれている単語「タブレット」、「パソコン」、及び「携帯電話」の各々の読み情報に基づいて、補正値を算出する。ここでは、読み情報として、単語辞書テーブル68Aに含まれる単語の類似単語パタンの文字データテーブル68Cにおける検出頻度、及び単語辞書テーブル68Aに含まれる単語の一致単語の文字データテーブル68Cにおける検出頻度を用いる。文字データテーブル68Cに、単語辞書テーブル68Aに含まれる単語の類似単語パタンの検出頻度が低くなり、単語辞書テーブル68Aに含まれる単語の一致単語の検出頻度が高くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。
文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語の類似単語パタンが多く含まれると、単語辞書テーブル68Aに含まれる単語と、当該単語の類似単語パタンと、を誤って、音声データA、B及びCから検出する可能性が高くなるためである。一方で、文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語と読みが一致する単語が多く含まれると、検出された単語辞書テーブル68Aに含まれる単語が正しく認識された単語である可能性が高くなる。すなわち、類似単語パタンの文字データテーブル68Cにおける検出頻度、及び一致単語の文字データテーブル68Cにおける検出頻度は、「検出される単語が誤検出され易い程度を示す特徴」となる。
ここでは、例えば、以下の(4)式を用いて補正値を算出する。
補正値=1−0.1log10(類似単語パタンの検出頻度)+0.05log10(一致単語の検出頻度)…(4)
図18に示されるように、単語「タブレット」、「パソコン」、及び「携帯電話」の各々の類似単語パタンの検出頻度は、5000個、200個、及び10個である。また、単語「タブレット」、「パソコン」、及び「携帯電話」の各々の一致単語の検出頻度は、10000個、2000個、及び10個であるから、ここでは、補正値は、0.83、0.93、及び0.95である。
なお、(4)式は、以下の(4A)式のように、パーセント(%)を用いて率で表されてもよい。
補正率=100%−10log10(類似単語パタンの検出頻度)+5log10(一致単語の検出頻度)…(4A)
また、(4)式において用いられている数値0.1及び0.05は一例であり、開示の技術は、当該数値及び数式に限定されるものではない。文字データテーブル68Cに含まれる所定の単語の類似単語パタンの検出頻度が低くなり、所定の単語の一致単語の検出頻度が高くなるに従って小さくなる誤検出割合を補正するための補正値を算出するために適切な数値及び数式を選択することが可能である。
(4)式において、対数を使用し、補正値が指数関数的に増減するものとしたが、開示の技術はこれに限定されない。
第3実施形態によれば、単語検出部12は、音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する。補正値算出部14は、検出される単語の読み情報に基づいて定まる、検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて検出頻度に含まれたと推定される誤検出割合を補正するための補正値を算出する。頻度算出部16は、検出頻度に補正値を適用することにより、検出頻度に含まれる誤検出割合が補正された推定検出頻度を算出する。したがって、開示の技術によれば、対応する文字データが存在しない場合でも精度よく単語毎の推定検出頻度を取得することができる。
補正値算出部14は、文字データテーブル68Cに含まれる単語の類似単語パタンの検出頻度が低くなり、文字データテーブル68Cに含まれる単語の一致単語パタンの検出頻度が高くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語の類似単語パタンが多く含まれると、単語辞書テーブル68Aに含まれる単語と、類似単語パタンと、を誤って、音声データA、B及びCから、検出する可能性が高くなるためである。一方で、文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語と読みが一致する単語が多く含まれると、検出された単語辞書テーブル68Aに含まれる単語が正しく認識された単語である可能性が高くなるためである。したがって、開示の技術によれば、誤検出割合の推定精度を向上させることができる。
[第4実施形態]
第4実施形態の構成は、図19に示すように、記憶部18が文字データテーブル68Cに替えて適合値テーブル68Dを生成するためのデータを記憶している点で、第2及び第3実施形態と相違する。また、図20に示すように、記憶部18として機能する2次記憶部64が文字データテーブル68Cに替えて適合値テーブル68Dを生成するためのデータを記憶している点で、第2及び第3実施形態と相違する。
図21に適合値テーブル68Dの一例を示す。適合値テーブル68Dは、拍の各々の読みを含む拍フィールドと当該拍の各々に対応する適合値を含む適合値フィールドを有する。拍の各々に対応する適合値は、音声認識によって学習用音声データから拍の各々を検出した検出頻度を音声データに含まれる拍の出現頻度で除することによって取得することができる。
図22に示す第4実施形態の頻度算出処理のステップ302及びステップ306は、第1実施形態のステップ102及びステップ106、及び、第2及び第3実施形態のステップ202及びステップ206と同様であるので、説明を省略する。
ステップ304で、CPU60は、検出頻度に含まれる誤検出割合を補正するための補正値を算出する。補正値は、単語辞書テーブル68Aに含まれる単語の各々の読みの拍の各々が音声認識により適切に検出される適合値の各々を代表する代表値が大きくなるに従って小さくなる誤検出割合を補正するための補正値を算出する。
拍の各々の適合値の代表値が大きくなれば、当該拍の各々に対応する読みを含む単語が正しく検出される可能性が高くなる。すなわち、拍の各々の適合値の代表値は、「検出される単語が誤検出され易い程度を示す特徴」となる。
ここでは、例えば、拍の各々の適合値の最小値を代表値として用いる。この場合、以下の(5)式を用いて補正値を算出する。
補正値=min(単語に含まれる読みの拍毎の適合値)…(5)
読み「たぶれっと」を有する単語の拍の各々「た」、「ぶ」、「れ」、「っ」、「と」の適合値は、図21に示されるように、各々0.82,0.85,0.77,0.70,0.75であるから、補正値は、0.70である。なお、これらの適合値は、説明のための例示である。
なお、代表値として、単語に含まれる読みの拍毎の適合値の最小値を用いたが、開示の技術はこれに限定されず、例えば、単語に含まれる読みの拍毎の適合値の平均値または中央値などを代表値として用いてもよい。
適合値テーブル68Dを生成するためのデータは、予め2次記憶装置64に記憶されているものとしたが、開示の技術はこれに限定されない。例えば、適合値テーブル68Dを生成するためのデータは、外部インターフェイス70を介して、外部装置から2次記憶装置64に送信されてもよい。
(5)式は、以下の(5A)式のように、パーセント(%)を用いて率で表されてもよい。適合率は、上記適合値に100を乗じることによって取得される。
補正率=min(単語に含まれる読みの拍毎の適合率(%))…(5A)
第4実施形態によれば、単語検出部12は、音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する。補正値算出部14は、検出される単語の読み情報に基づいて定まる、検出される単語が誤検出され易い程度を示す特徴に基づいて、検出頻度に含まれる誤検出割合を補正するための補正値を算出する。頻度算出部16は、検出頻度に補正値を適用して、検出頻度に含まれる誤検出割合を補正することにより、推定検出頻度を算出する。したがって、開示の技術によれば、自動的にかつ精度よく単語毎の推定検出頻度を取得することができる。
補正値算出部14は、単語に含まれる読みの拍の各々が音声認識により適切に検出される適合値の各々を代表する代表値が大きくなるに従って小さくなる誤検出割合を補正するための補正値を算出する。拍の各々の適合値の代表値が大きくなれば、当該拍の各々に対応する読みを含む単語が正しく検出される可能性も高くなるためである。したがって、開示の技術によれば、誤検出割合の推定精度を向上させることができる。
[第5実施形態]
第5実施形態の構成は、第4実施形態と同様であるため、説明を省略する。
第4実施形態の処理と第5実施形態の処理との相違点を以下に説明する。第5実施形態の処理において、第4実施形態と同様の部分については説明を省略する。
第5実施形態の頻度算出処理において、CPU60は、図22のステップ304で、さらに、単語辞書テーブル68Aに含まれる単語が有する拍数を取得し、拍数が多くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。拍数が多くなるに従って、音声データの特徴パタンと照合される音響モデルも長くなるため、単語が誤検出され難くなり、当該単語が正しく検出される可能性が高くなる。すなわち、拍の各々の適合値の代表値、及び拍数は、「検出される単語が誤検出され易い程度を示す特徴」となる。
ここでは、例えば、拍の各々の適合値の最小値を代表値として用いる。この場合、以下の(6)式を用いて補正値を算出する。
補正値=min(1,min(単語に含まれる読みの拍毎の適合値)+拍数×0.01)…(6)
読み「たぶれっと」を有する単語の拍の各々「た」、「ぶ」、「れ」、「っ」、「と」の適合値は、図21に示されるように、各々0.82,0.85,0.77,0.70,0.75であるから、min(単語に含まれる読みの拍毎の適合値)は、0.70である。なお、これらの検出頻度は、説明のための例示である。
読み「たぶれっと」の拍数は5であるから、min(単語に含まれる読みの拍毎の適合値)+拍数×0.01は、0.70+0.05=0.75であり、補正値は0.75である。
第5実施形態によれば、単語検出部12は、音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する。補正値算出部14は、検出される単語の読み情報に基づいて定まる、検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて検出頻度に含まれたと推定される誤検出割合を補正するための補正値を算出する。頻度算出部16は、検出頻度に補正値を適用することにより、検出頻度に含まれる誤検出割合が補正された推定検出頻度を算出する。したがって、開示の技術によれば、対応する文字データが存在しない場合でも精度よく単語毎の推定検出頻度を取得することができる。
補正値算出部14は、単語に含まれる読みの拍の各々が音声認識により適切に検出される適合値の各々を代表する代表値が大きくなり、単語の拍数が多くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。拍の各々の適合値の代表値が大きくなれば、当該拍の各々に対応する読みを含む単語が正しく検出される可能性も高くなるためである。一方で、拍数が多くなるに従って、音声データの特徴パタンと照合される音響モデルも長くなるため、単語が誤検出され難くなり、当該単語が正しく検出される可能性が高くなるためである。したがって、開示の技術によれば、誤検出割合の推定精度を向上させることができる。
[第6実施形態]
第6実施形態の構成は、図23に示すように、記憶部18が文字データテーブル68C及び誤認識データテーブル68Eを生成するデータを記憶している点で、第1〜第5実施形態と相違する。また、図24に示すように、記憶部18として機能する2次記憶部64が文字データテーブル68C及び誤認識データテーブル68Eを生成するデータを記憶している点で、第1〜第5実施形態と相違する。
図25に誤認識データテーブル68Eの一例を示す。図25に示す誤認識データテーブル68Eは、拍の各々の読みを含む拍フィールドと当該拍の各々の読みと誤認識しやすい読みを有する誤認識フィールドを有する。拍の各々の読みと誤認識しやすい読みは、音声認識によって学習用音声データから拍の各々を検出した際に、誤認識によって当該拍であるとして検出された当該拍とは異なる読みを有する拍を抽出することによって取得することができる。
図26に例示する第6実施形態の頻度算出処理のステップ402及びステップ406は、第1実施形態の頻度算出処理のステップ102及びステップ106、及び、第2及び第3実施形態のステップ202及びステップ206と同様である。また、第6実施形態の頻度算出処理のステップ402及びステップ406は、第4及び第5実施形態のステップ302及びステップ306と同様である。したがって、説明を省略する。
ステップ404では、CPU60は、検出頻度に含まれる誤検出割合を補正するための補正値を算出する。CPU60は、まず、文字データテーブル68Cの文字データレコードの表記を、図12に示すように、読みに変換する。例えば、文字データレコードの表記「タブレットの型番はどこに書いてありますか」は読み「たぶれっとのかたばんわどこにかいてありますか」に変換される。
CPU60は、次に、図3に例示する単語辞書テーブル68Aに含まれる単語と読みが類似する単語パタン(以下、類似単語パタン)を生成する。類似単語パタンは、例えば、単語の少なくとも1拍を当該少なくとも1拍の読みと誤認識し易い、当該少なくとも1拍と同数の拍と置換した単語である。例えば、「たぶれっと」の類似単語パタンは、「た」を「か」または「あ」と置換し、「ぶ」を「ぷ」と置換し、「れ」を「り」と置換し、「っ」を削除し、または、「と」を「こ」と置換された単語である。当該置換は、複数の拍で行われてもよい。
読み「たぶれっと」を有する単語の類似単語パタン群の一部を図27に示す。例えば、読み「たぶれっと」を有する単語の類似単語パタン群は、「かぶれっと」、「かぷれっと」、「かぶりっと」、「かぶれと」、「かぶれっこ」、「たぷれっと」、「たぷりっと」、「たぷれと」、「たぷれっこ」、「たぶりっと」、「たぶりと」などを含む。
CPU60は、次に、文字データテーブル68Cから単語辞書テーブル68Aに含まれる単語の類似単語パタンを検出し、当該類似単語パタンの検出頻度を取得する。ここで、単語辞書テーブル68Aに含まれる単語、例えば、「たぶれっと」の検出は行わない。
図10には、3個の文字データレコードのみを示しているが、さらに、多くの文字データレコードに対して、単語辞書テーブル68Aに含まれる単語の類似単語パタンの検出頻度を取得する。この場合、例えば、図28に示すように、単語「タブレット」の類似単語パタンの検出頻度は、6000個、単語「パソコン」の類似単語パタンの検出頻度は、300個、単語「携帯電話」の類似単語パタンの検出頻度は、20個である。なお、これらの検出頻度は、説明のための例示である。
次に、CPU60は、単語辞書テーブル68Aに含まれている単語「タブレット」、「パソコン」、及び「携帯電話」の各々の読み情報に基づいて、補正値を算出する。ここでは、読み情報として、単語辞書テーブル68Aに含まれる単語の類似単語パタンの検出頻度を用いる。文字データテーブル68Cから、単語辞書68Aに含まれる単語の類似単語パタンの検出頻度が低くなるに従って指数関数的に小さくなる誤検出割合を補正するための補正値を算出する。
文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語の類似単語パタンが多く含まれるということは、当該類似単語パタンが出現する可能性が高いということである。したがって、単語辞書テーブル68Aに含まれる単語と、当該単語の類似単語パタンと、を誤って、音声データA、B及びCから、検出する可能性が高くなる。すなわち、文字データテーブル68Cにおける単語辞書テーブル68Aに含まれる単語の類似単語パタンの検出頻度は、「検出される単語が誤検出され易い程度を示す特徴」となる。
ここでは、例えば、以下の(7)式を用いて補正値を算出する。
補正値=1−0.1log10(類似単語パタンの検出頻度)…(7)
図29に示されるように、例えば、単語「タブレット」、「パソコン」、及び「携帯電話」の各々の類似単語パタンの検出頻度は、6000個、300個、及び20個である。なお、これらの検出頻度は説明のための例示である。ここでは、補正値は、0.62、0.75、及び0.87である。
なお、誤認識データテーブル68Eを生成するためのデータは、予め2次記憶装置64に記憶されているものとしたが、開示の技術はこれに限定されない。例えば、誤認識データテーブル68Eを生成するためのデータは、外部インターフェイス70を介して、外部装置から2次記憶装置64に送信されてもよい。
(7)式は、以下の(7A)式のように、パーセント(%)を用いて率で表されてもよい。
補正率=100%−10log10(類似単語パタンの検出頻度)…(7A)
また、(7)式において用いられている数値0.1は一例であり、開示の技術は、当該数値及び数式に限定されるものではない。文字データテーブル68Cに含まれる所定の単語と読みが類似する単語の検出頻度が低くなるに従って小さくなる誤検出割合を補正するための補正値を算出するために適切な数値及び数式を選択することが可能である。
(7)式において、対数を使用し、補正値が指数関数的に増減するものとしたが、開示の技術はこれに限定されない。
第6実施形態によれば、単語検出部12は、音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する。補正値算出部14は、検出される単語の読み情報に基づいて定まる、検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて検出頻度に含まれたと推定される誤検出割合を補正するための補正値を算出する。頻度算出部16は、検出頻度に補正値を適用することにより、検出頻度に含まれる誤検出割合が補正された推定検出頻度を算出する。したがって、開示の技術によれば、対応する文字データが存在しない場合でも精度よく単語毎の推定検出頻度を取得することができる。
補正値算出部14は、文字データテーブル68Cに含まれる所定の単語と読みが類似する単語の検出頻度が低くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語の類似単語パタンが多く含まれると、単語辞書テーブル68Aに含まれる単語と、類似単語パタンと、を誤って、音声データA、B及びCから、検出する可能性が高くなるためである。したがって、開示の技術によれば、誤検出割合の推定精度を向上させることができる。
[第7実施形態]
第7実施形態の構成は、第6実施形態と同様であるため、説明を省略する。
第6実施形態の処理と第7実施形態の処理との相違点を以下に説明する。第7実施形態の処理において、第6実施形態と同様の部分については説明を省略する。
第7実施形態の頻度算出処理において、CPU60は、図26のステップ404において、第6実施形態で行った処理に加えて、さらに、文字データテーブル68Cから単語辞書テーブル68Aに含まれる単語と読みが一致する単語(以下、一致単語)を検出する。当該検出により、CPU60は、当該一致単語の検出頻度を取得する。一例として、図30に示すように、単語辞書テーブル68Aに含まれる単語「タブレット」の一致単語の検出頻度は、10000個、単語辞書テーブル68Aに含まれる単語「パソコン」の一致単語の検出頻度は、2000個である。また、単語辞書テーブル68Aに含まれる単語「携帯電話」の一致単語の検出頻度は、10個である。なお、これらの検出頻度は説明のための例示である。
次に、CPU60は、単語辞書テーブル68Aに含まれている単語「タブレット」、「パソコン」、及び「携帯電話」の各々の読み情報に基づいて、補正値を算出する。ここでは、読み情報として、単語辞書テーブル68Aに含まれる単語の類似単語パタンの文字データテーブル68Cにおける検出頻度、及び単語辞書テーブル68Aに含まれる単語の一致単語の文字データテーブル68Cにおける検出頻度を用いる。文字データテーブル68Cから、単語辞書テーブル68Aに含まれる単語の類似単語パタンの検出頻度が低くなり、単語辞書テーブル68Aに含まれる単語の一致単語の検出頻度が高くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。
文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語の類似単語パタンが多く含まれると、単語辞書テーブル68Aに含まれる単語と、当該単語の類似単語パタンと、を誤って、音声データA、B及びCから、検出する可能性が高くなるためである。また、文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語の一致単語が多く含まれると、検出された単語辞書テーブル68Aに含まれる単語が正しく認識された単語である可能性が高くなる。すなわち、類似単語パタンの検出頻度、及び一致単語の検出頻度は、「検出される単語が誤検出され易い頻度を示す特徴」となる。
ここでは、例えば、以下の(8)式を用いて補正値を算出する。
補正値=1−0.1log10(類似単語パタンの検出頻度)+0.05log10(一致単語の検出頻度)…(8)
単語「タブレット」、「パソコン」、及び「携帯電話」の各々の類似単語パタンの検出頻度は、6000個、300個、及び20個である。また、単語「タブレット」、「パソコン」、及び「携帯電話」の各々の一致単語の検出頻度は、10000個、2000個、及び10個であるから、図30に示されるように、ここでは、補正値は、0.82、0.92、及び0.92である。
なお、(8)式は、以下の(8A)式のように、パーセント(%)を用いて率で表されてもよい。
補正率=100%−10log10(類似単語パタンの検出頻度)+5log10(一致単語の検出頻度)…(8A)
また、(8)式において用いられている数値0.1及び0.05は一例であり、開示の技術は、当該数値及び数式に限定されるものではない。文字データテーブル68Cに含まれる所定の単語の類似単語パタンの検出頻度が低くなり、所定の単語の一致単語の検出頻度が高くなるに従って小さくなる誤検出割合を補正するための補正値を算出するために適切な数値及び数式を選択することが可能である。
(8)式において、対数を使用し、補正値が指数関数的に増減するものとしたが、開示の技術はこれに限定されない。
第7実施形態によれば、単語検出部12は、音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する。補正値算出部14は、検出される単語の読み情報に基づいて定まる、検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて検出頻度に含まれたと推定される誤検出割合を補正するための補正値を算出する。頻度算出部16は、検出頻度に補正値を適用することにより、検出頻度に含まれる誤検出割合が補正された推定検出頻度を算出する。したがって、開示の技術によれば、対応する文字データが存在しない場合でも精度よく単語毎の推定検出頻度を取得することができる。
補正値算出部14は、文字データテーブル68Cに含まれる単語の類似単語パタンの検出頻度が低くなり、文字データテーブル68Cに含まれる単語の一致単語パタンの検出頻度が高くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語の類似単語パタンが多く含まれると、単語辞書テーブル68Aに含まれる単語と、類似単語パタンと、を誤って、音声データA、B及びCから、検出する可能性が高くなるためである。一方で、文字データテーブル68Cに単語辞書テーブル68Aに含まれる単語と読みが一致する単語が多く含まれると、検出された単語辞書テーブル68Aに含まれる単語が正しく認識された単語である可能性が高くなるためである。したがって、開示の技術によれば、誤検出割合の推定精度を向上させることができる。
[第8実施形態]
第8実施形態の構成は、図31に示すように、第1実施形態においてコンピュータ10に含まれていた構成要素が、クライアントコンピュータ2及びサーバコンピュータ4に分散されている点で、第1実施形態と相違する。以下、第1実施形態と同様の構成要素については説明を省略する。
クライアントコンピュータ2は、単語検出部12及び通信部22を有する。単語検出部12及び通信部22は接続されている。サーバコンピュータ4は、補正値算出部14、頻度算出部16、単語辞書テーブル68Aを含む記憶部18、及び通信部24を有する。補正値算出部14は、記憶部18及び頻度算出部16と接続されている。記憶部18及び頻度算出部16は、各々、さらに、通信部24と接続されている。クライアントコンピュータ2の通信部22とサーバコンピュータ4の通信部24とは、インターネットなどの通信回線を介して接続されている。
クライアントコンピュータ2は、一例として図32に示すように、CPU60C、1次記憶部62C、2次記憶部64C、及び外部インターフェイス70Cを備えている。CPU60C、1次記憶部62C、2次記憶部64C、及び外部インターフェイス70Cは、バス78Cを介して接続されている。
外部インターフェイス70Cには、サーバコンピュータ4を含む外部装置が接続され、外部装置とCPU60Cとの間の各種情報の送受信を司る。外部インターフェイス70Cは、図31の通信部22として機能する。
2次記憶部64Cは、一例として、単語検出サブプログラム66A、及び音声データ群68Bを記憶している。CPU60Cは、2次記憶部64Cから単語検出サブプログラム66Aを読み出して1次記憶部62Cに展開する。CPU60Cは、単語検出サブプログラム66Aを実行することで、図31に示す単語検出部12として動作する。
サーバコンピュータ4は、一例として図33に示すように、CPU60S、1次記憶部62S、2次記憶部64S、及び外部インターフェイス70Sを備えている。CPU60S、1次記憶部62S、2次記憶部64S、及び外部インターフェイス70Sは、バス78Sを介して接続されている。
外部インターフェイス70Sには、クライアントコンピュータ2を含む外部装置が接続され、外部装置とCPU60Sとの間の各種情報の送受信を司る。1次記憶部62S及び2次記憶部64Sは、図31の記憶部18として機能する。外部インターフェイス70Sは、図31の通信部24として機能する。
2次記憶部64Sは、一例として、補正値算出サブプログラム66B、頻度算出サブプログラム66C及び単語辞書テーブル68Aを生成するためのデータを記憶している。
CPU60Sは、2次記憶部64Sから補正値算出サブプログラム66B及び頻度算出サブプログラム66Cを読み出して1次記憶部62Sに展開する。CPU60Sは、補正値算出サブプログラム66Bを実行することで、図31に示す補正値算出部14として動作する。CPU60Sは、頻度算出サブプログラム66Cを実行することで、図31に示す頻度算出部16として動作する。
図34に、CPU60Cが単語検出サブプログラム66Aを実行することにより、クライアントコンピュータ2で行われる処理を示す。以下、第1実施形態と同様の処理については説明を省略する。ステップ501で、CPU60Cは、単語辞書テーブル68Aをサーバコンピュータ4から、外部インターフェイス70Cを介して、受信する。ステップ502で、CPU60Cは、単語辞書テーブル68Aに含まれる単語を音声データA、B及びCから検出し、単語毎の検出頻度を取得する。ステップ503で、CPU60Cは、外部インターフェイス70Cを介して、サーバコンピュータ4に取得した検出頻度を送信する。
図35に、CPU60Sが補正値算出サブプログラム66B及び頻度算出サブプログラム66Cを実行することにより、サーバコンピュータ4で行われる処理を示す。以下、第1実施形態と同様の処理については説明を省略する。ステップ504で、CPU60Sは、単語の拍数が多くなるに従って小さくなる誤検出割合を補正するための補正値を算出する。ステップ505で、CPU60Sは、クライアントコンピュータ2から検出頻度を受信するまで待機する。ステップ505で、CPU60Sが、クライアント2から、外部インターフェイス70Sを介して、検出頻度を受信すると、ステップ506で、CPU60Sは、検出頻度に補正値を適用することにより、推定検出頻度を算出する。ステップ507で、CPU60Sは、算出した推定検出頻度をクライアントコンピュータ2に、外部インターフェイス70Sを介して、送信して処理を終了する。
図34のステップ508で、CPU60Cは、サーバコンピュータ4から推定検出頻度を受信するまで待機する。ステップ508で、CPU60Cは、サーバコンピュータ4から、外部インターフェイス70Cを介して、推定検出頻度を受信すると、処理を終了する。
第8実施形態によれば、単語検出部12は、音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する。補正値算出部14は、検出される単語の読み情報に基づいて定まる、検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて検出頻度に含まれたと推定される誤検出割合を補正するための補正値を算出する。頻度算出部16は、検出頻度に補正値を適用することにより、検出頻度に含まれる誤検出割合が補正された推定検出頻度を算出する。
補正値算出部14は、所定の単語の拍数が多くなるに従って、検出頻度に含まれる誤検出割合を低くする補正値を算出する。拍数が多くなるに従って、音声データの特徴パタンと照合される音響モデルも長くなるため、単語が誤検出され難くなり、当該単語が正しく検出される可能性が高くなるためである。したがって、開示の技術によれば、自動的にかつ精度よく単語毎の推定検出頻度を取得することができる。
さらに、単語辞書テーブル68Aがサーバコンピュータ4の記憶部18に記憶されているため、単語辞書テーブル68Aへの新しい単語の追加または不要な単語の削除などの単語辞書テーブル68Aの管理をサーバコンピュータ4が一括して行うことができる。
また、サーバコンピュータ4が補正値算出部14を有しているため、補正値の算出方法の変更などをサーバコンピュータ4が一括して行うことができる。
また、クライアントコンピュータ2が単語検出部12を有しているため、音声データをサーバコンピュータ4に送信しなくてよい。これは、例えば、通話などによって生成される音声データに開示の技術を適用する場合、データ処理及びデータ通信の負荷の低減及び秘密保持の観点から有用である。
第1実施形態の変形例として第8実施形態を示したが、開示の技術はこれに限定されず、例えば、第8実施形態は、第2〜第7実施形態に適用されてもよい。すなわち、第2〜第7実施形態もコンピュータ10に替えて、クライアントコンピュータ2及びサーバコンピュータ4によって実装されていてもよい。さらに、第1〜第8実施形態は、3台以上のコンピュータに分散して実装されてもよい。
第8実施形態では、クライアントコンピュータ2が、単語検出部12を有する構成としたが、開示の技術はこれに限定されない。例えば、クライアントコンピュータ2が、単語検出部12及び補正値算出部14を有し、サーバコンピュータ4が頻度算出部16を有する構成としてもよい。
なお、上記プログラムまたはサブプログラムは2次記憶部64、64Cまたは64Sに予め記憶(インストール)されているが、開示の技術はこれに限定されない。例えば、プログラムまたはサブプログラムの全部または一部は、CD−ROMまたはDVD−ROM等の非一時的記憶媒体に記憶されてもよい。非一時的記憶媒体に記憶されたプログラムまたはサブプログラムの全部または一部は、2次記憶部64、64Cまたは64Sにインストールされた後、2次記憶部64、64Cまたは64Sから読み出され、1次記憶部62、62Cまたは62Sに展開されてもよい。また、非一時的記憶媒体から直接読み出され、1次記憶部62、62Cまたは62Sに展開されてもよい。
上記テーブルの各々の情報は2次記憶部64、64Cまたは64Sに予め記憶されているが、開示の技術はこれに限定されない。例えば、テーブルの情報の全部または一部は、CD−ROMまたはDVD−ROM等の非一時的記憶媒体に記憶されてもよい。非一時的記憶媒体に記憶されたテーブルの情報の全部または一部は、2次記憶部64、64Cまたは64Sにインストールされてもよいし、1次記憶部62、62Cまたは62Sにインストールされてもよい。
また、上記プログラムまたはサブプログラムは、外部サーバに記憶されてもよい。外部サーバに記憶されたプログラムまたはサブプログラムの全部または一部は、外部インターフェイス70、70Cまたは70Sを介して2次記憶部64、64Cまたは64Sにインストールされた後、2次記憶部64、64Cまたは64Sから読み出されてもよい。さらに、外部サーバに記憶されたプログラムまたはサブプログラムの全部または一部は、1次記憶部62、62Cまたは62Sに展開されてもよい。あるいは、外部サーバに記憶されたプログラムまたはサブプログラムの全部または一部は、外部サーバから直接読み出され、1次記憶部62、62Cまたは62Sに展開されてもよい。
また、上記テーブルの情報の各々は、外部サーバに記憶されてもよい。外部サーバに記憶されたテーブルの情報の全部または一部は、外部インターフェイス70、70Cまたは70Sを介して2次記憶部64、64Cまたは64Sにインストールされてもよいし、1次記憶部62、62Cまたは62Sにインストールされてもよい。
[比較結果1]
図36の「出現頻度」に示すように、単語「タブレット」が、音声データAには2個、音声データBには1個、音声データCには0個存在する音声データ群を用いた開示の技術と関連技術との比較結果について説明する。
(関連技術イ)
関連技術イでは、音声認識によって取得される照合スコアが閾値80を越える場合に、音声データから単語「タブレット」を検出する。
音声データAでは、図37の音声データAに示すように、単語「タブレット」が、スコア「90」、「80」、及び「95」の3個検出されたとする(図36の「関連技術イ」を参照)。スコア「80」の単語「タブレット」の検出は誤検出であったとする。
音声データBでは、図37の音声データBに示すように、単語「タブレット」が、スコア「80」及び「80」の2個検出されたとする(図36の「関連技術イ」を参照)。2個のうち一方の単語「タブレット」の検出は誤検出であったとする。
音声データCでは、図37の音声データCに示すように、単語「タブレット」は検出されなかったとする(図36の「関連技術イ」を参照)。誤検出はなかったとする。
(関連技術ロ)
関連技術ロでは、関連技術イの誤検出を抑制するために、閾値「90」を用いる。
音声データAでは、図37の音声データAに示すように、単語「タブレット」が、スコア「90」及び「95」の2個検出されたとする(図36の「関連技術ロ」を参照)。誤検出はなかったとする。
音声データBでは、図37の音声データBに示すように、単語「タブレット」は検出されなかった(図36の「関連技術ロ」を参照)。検出がないため誤検出もなかったとされるが、存在する1個の単語「タブレット」の未検出があったとする。
音声データCでは、図37の音声データCに示すように、単語「タブレット」は検出されなかったとする。誤検出も未検出もなかったとする。
(開示の技術)
ここでは、閾値を80とした場合の単語「タブレット」の検出頻度(関連技術イ)に、単語「タブレット」の読み情報に基づいて算出した補正値0.75を乗じて、推定検出頻度を算出する(図6を参照)。
音声データAでは、図36の「A」に示すように、単語「タブレット」の推定検出頻度は、2.25個である。音声データBでは、図36の「B」に示すように、単語「タブレット」の推定検出頻度は1.50個である。音声データCでは、図36の「C」に示すように、単語「タブレット」の推定検出頻度は0.00個である。
(まとめ)
関連技術イでは、誤検出が2個あり、関連技術ロでは誤検出はないが未検出が1個ある。関連技術ロでは、関連技術イと比較して、誤検出及び未検出の総和は少ない。しかし、関連技術ロでは、音声データB及び音声データCにおける単語「タブレット」の検出頻度が共に0であり、音声データBと音声データCとの区別が困難である。
また、音声データAにおける単語「タブレット」の出現頻度と開示の技術における単語「タブレット」の推定検出頻度との差は、0.25である。また、音声データBにおける単語「タブレット」の出現頻度と開示の技術における単語「タブレット」の推定検出頻度との差は、0.50である。この和を、A、B、C全体における誤検出に相当する数値とすると、開示の技術では、0.75であり、3例の中でもっとも小さい。さらに、音声データBの推定検出頻度は1.50個であり、音声データCの推定検出頻度は0.00個であるから、音声データBと音声データCとの区別も明瞭である。
[比較結果2]
総計536個の通話によって生成された音声データから、振り込め詐欺特有の複数の単語を検出した場合における開示の技術と関連技術との比較結果について説明する。振り込め詐欺特有の複数の単語とは、例えば、「金」、「口座番号」などを含む単語群である。単語群には、振り込め詐欺でよく使用されることが知られている約200個の単語が含まれていた。
(関連技術イ)
関連技術イでは、音声認識によって取得される照合スコアが所定の閾値を越える場合に、振り込め詐欺特有の単語群に含まれる単語の存在を音声データから検出する。
図38は、横軸に、1つの音声データに含まれる振り込め詐欺特有の単語群に含まれる単語の検出頻度(複数種類の単語が検出された場合は単語毎の検出頻度の総和)を示し、縦軸に、当該検出頻度の総和を示した通話の音声データの個数を示す。ビンの各々の左寄りにドットで示されるバーは、友人との通話によって生成された音声データの個数を示し、ビンの各々の右寄りに斜線で示されるバーは、振り込め詐欺を模擬した通話によって生成された音声データの個数を示す。
友人との通話によって生成された音声データ及び振り込め詐欺を模擬した通話によって生成された音声データの双方が、振り込め詐欺特有の単語群に含まれる単語の検出頻度が1〜5である広範囲に亘って存在している。したがって、友人との通話によって生成された音声データと振り込め詐欺を模擬した通話とを自動的に切り分けることは比較的困難である。このため、振り込め詐欺特有の単語群に含まれる単語の検出頻度の総和に基づいて、振り込め詐欺を意図した通話であることを自動的に検知することは困難である。
(関連技術ロ)
関連技術ロでは、関連技術イの誤検出を抑制するために調整した閾値を用いる。音声認識によって取得される照合スコアが取得された閾値を越える場合に、振り込め詐欺特有の単語群に含まれる単語の存在を検出する。
図39は、図38と同様であるため、説明を省略する。
友人との通話によって生成された音声データ及び振り込め詐欺を模擬した通話によって生成された音声データの双方が、振り込め詐欺特有の単語群に含まれる単語の検出頻度の総和が1〜3である比較的広範囲に亘って存在している。したがって、友人との通話によって生成された音声データと振り込め詐欺を模擬した通話とを自動的に切り分けることは比較的困難である。このため、振り込め詐欺特有の単語群に含まれる単語の検出頻度の総和に基づいて、振り込め詐欺を意図した通話であることを自動的に検知することは困難である。
(開示の技術)
ここでは、音声認識によって取得されるスコアが所定の閾値を越える場合に、振り込め詐欺特有の単語群に含まれる単語の検出頻度を取得する(関連技術イを参照)。振り込め詐欺特有の単語群に含まれる単語の各々の読み情報に基づいて補正値を算出し、検出頻度に補正値を乗じて推定検出頻度を算出した。
図40は、図38及び図39と同様であるため、説明を省略する。
友人との通話によって生成された音声データでは、振り込め詐欺特有の単語群に含まれる単語の検出頻度の総和が0〜1である音声データが多い。一方、振り込め詐欺を模擬した通話によって生成された音声データでは、振り込め詐欺特有の単語群に含まれる単語の検出頻度の総和が4以上の音声データが多い。したがって、友人との通話によって生成された音声データと振り込め詐欺を模擬した通話とを自動的に切り分けることは比較的容易である。このため、振り込め詐欺特有の単語群に含まれる単語の検出頻度の総和に基づいて、振り込め詐欺を意図した通話であることを自動的に検知することは比較的容易である。
(まとめ)
関連技術イにおいて、振り込め詐欺を模擬した通話によって生成された音声データであるか、友人との通話によって生成された音声データであるか、を判定した場合の正解率は93.5%であった。
関連技術ロにおいて、振り込め詐欺を模擬した通話によって生成された音声データであるか、友人との通話によって生成された音声データであるか、を判定した場合の正解率は95.5%であった。
開示の技術において、振り込め詐欺を模擬した通話によって生成された音声データであるか、友人との通話によって生成された音声データであるか、を判定した場合の正解率は96.8%であった。
以上の実施形態に関し、更に以下の付記を開示する。
(付記1)
音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得する単語検出部(図1、図4、図19、図23:12)と、
前記検出される単語の読み情報に基づいて定まり、かつ、前記検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて前記検出頻度に含まれたと推定される誤検出割合を前記検出頻度に適用することにより、前記検出頻度の前記誤検出割合が補正された推定検出頻度を算出する頻度算出部(図1、図4、図19、図23:16)と、
を備える頻度算出装置。
(付記2)
前記頻度算出部(図1:16)は、前記所定の単語の音節数または拍数が多くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記1に記載の頻度算出装置。
(付記3)
前記頻度算出部(図4、図23:16)は、文字データに含まれる前記所定の単語と読みが類似する単語の検出頻度が低くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記1に記載の頻度算出装置。
(付記4)
前記頻度算出部(図4、図23:16)は、文字データに含まれる前記所定の単語と読みが類似する単語の検出頻度が低くなり、前記文字データに含まれる前記所定の単語と読みが一致する単語の検出頻度が高くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記1に記載の頻度算出装置。
(付記5)
前記所定の単語と読みが類似する単語は、前記所定の単語と読みが1音節または1拍異なる単語である、
付記3または付記4に記載の頻度算出装置。
(付記6)
前記所定の単語と読みが類似する単語は、前記所定の単語の少なくとも1音節または少なくとも1拍を前記少なくとも1音節または少なくとも1拍と誤認識し易い前記少なくとも1音節または少なくとも1拍と同数の音節または拍と置換した単語である、
付記3または付記4に記載の頻度算出装置。
(付記7)
前記頻度算出部(図19:16)は、前記所定の単語に含まれる読みの音節の各々または拍の各々が音声認識により適切に検出される適合値の各々を代表する代表値が大きくなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記1に記載の頻度算出装置。
(付記8)
前記頻度算出部(図19:16)は、前記所定の単語に含まれる読みの音節の各々または拍の各々が音声認識により適切に検出される適合値の各々を代表する代表値が大きくなり、前記所定の単語の音節数または拍数が多くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記1に記載の頻度算出装置。
(付記9)
前記代表値は、前記適合値の各々の最小値または平均値である、
付記7または付記8に記載の頻度算出装置。
(付記10)
前記補正値を算出する補正値算出部(図1、図4、図19、図23:14)をさらに含む、付記1〜9のいずれかに記載の頻度算出装置。
(付記11)
所定の単語の読み情報に基づいて定まり、かつ、音声認識によって音声データに含まれる前記所定の単語を検出し、検出した単語毎の検出頻度を取得する際に、前記検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて前記検出頻度に含まれたと推定される誤検出割合を補正するための補正値を算出する補正値算出部(図31:14)と、
前記検出頻度に前記補正値を適用することにより、前記検出頻度の前記誤検出割合が補正された推定検出頻度を算出する頻度算出部(図19:16)、
と、を備える頻度算出装置。
(付記12)
コンピュータに、
音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得し、
前記検出される単語の読み情報に基づいて定まり、かつ、前記検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて前記検出頻度に含まれたと推定される誤検出割合を補正するための補正値を前記検出頻度に適用することにより、前記検出頻度の前記誤検出割合が補正された前記推定検出頻度を算出する、
ことを含む処理を実行させる頻度算出方法。
(付記13)
前記推定検出頻度を算出する際に、前記所定の単語の音節数または拍数が多くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記12に記載の頻度算出方法。
(付記14)
前記推定検出頻度を算出する際に、文字データに含まれる前記所定の単語と読みが類似する単語の検出頻度が低くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記12に記載の頻度算出方法。
(付記15)
前記推定検出頻度を算出する際に、文字データに含まれる前記所定の単語と読みが類似する単語の検出頻度が低くなり、前記文字データに含まれる前記所定の単語と読みが一致する単語の検出頻度が高くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記12に記載の頻度算出方法。
(付記16)
前記所定の単語と読みが類似する単語は、前記所定の単語と読みが1音節または1拍異なる単語である、
付記14または付記15に記載の頻度算出方法。
(付記17)
前記所定の単語と読みが類似する単語は、前記所定の単語の少なくとも1音節または少なくとも1拍を前記少なくとも1音節または少なくとも1拍と誤認識し易い前記少なくとも1音節または少なくとも1拍と同数の音節または拍と置換した単語である、
付記14または付記15に記載の頻度算出方法。
(付記18)
前記推定検出頻度を算出する際に、前記所定の単語に含まれる読みの音節の各々または拍の各々が音声認識により適切に検出される適合値の各々を代表する代表値が大きくなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記12に記載の頻度算出方法。
(付記19)
前記推定検出頻度を算出する際に、前記所定の単語に含まれる読みの音節の各々または拍の各々が音声認識により適切に検出される適合値の各々を代表する代表値が大きくなり、前記所定の単語の音節数または拍数が多くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記12に記載の頻度算出方法。
(付記20)
前記代表値は、前記適合値の各々の最小値または平均値である、
付記18または付記19に記載の頻度算出方法。
(付記21)
前記処理は、前記補正値を算出する、ことをさらに含む、付記12〜20のいずれかに記載の頻度算出方法。
(付記22)
コンピュータに、
所定の単語の読み情報に基づいて定まり、かつ、音声認識によって音声データに含まれる前記所定の単語を検出し、検出した単語毎の検出頻度を取得する際に、前記検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて前記検出頻度に含まれたと推定される誤検出割合を補正するための補正値を算出し、
前記検出頻度に前記補正値を適用することにより、前記検出頻度の前記誤検出割合が補正された推定検出頻度を算出する、
ことを含む処理を実行させる頻度算出方法。
(付記23)
音声認識によって音声データに含まれる所定の単語を検出し、検出した単語毎の検出頻度を取得し、
前記検出される単語の読み情報に基づいて定まり、かつ、前記検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて前記検出頻度に含まれたと推定される誤検出割合を補正するための補正値を前記検出頻度に適用することにより、前記検出頻度の前記誤検出割合が補正された前記推定検出頻度を算出する、
ことを含む頻度算出処理をコンピュータに実行させるためのプログラム。
(付記24)
前記推定検出頻度を算出する際に、前記所定の単語の音節数または拍数が多くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記23に記載のプログラム。
(付記25)
前記推定検出頻度を算出する際に、文字データに含まれる前記所定の単語と読みが類似する単語の検出頻度が低くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記23に記載のプログラム。
(付記26)
前記推定検出頻度を算出する際に、文字データに含まれる前記所定の単語と読みが類似する単語の検出頻度が低くなり、前記文字データに含まれる前記所定の単語と読みが一致する単語の検出頻度が高くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記23に記載のプログラム。
(付記27)
前記所定の単語と読みが類似する単語は、前記所定の単語と読みが1音節または1拍異なる単語である、
付記25または付記26に記載のプログラム。
(付記28)
前記所定の単語と読みが類似する単語は、前記所定の単語の少なくとも1音節または少なくとも1拍を前記少なくとも1音節または少なくとも1拍と誤認識し易い前記少なくとも1音節または少なくとも1拍と同数の音節または拍と置換した単語である、
付記25または付記26に記載のプログラム。
(付記29)
前記推定検出頻度を算出する際に、前記所定の単語に含まれる読みの音節の各々または拍の各々が音声認識により適切に検出される適合値の各々を代表する代表値が大きくなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記23に記載のプログラム。
(付記30)
前記推定検出頻度を算出する際に、前記所定の単語に含まれる読みの音節の各々または拍の各々が音声認識により適切に検出される適合値の各々を代表する代表値が大きくなり、前記所定の単語の音節数または拍数が多くなるに従って小さくなる前記誤検出割合を補正するための前記補正値を適用する、
付記23に記載のプログラム。
(付記31)
前記代表値は、前記適合値の各々の最小値または平均値である、
付記29または付記30に記載のプログラム。
(付記32)
前記頻度算出処理は、前記補正値を算出する、ことをさらに含む、請求項23〜31のいずれかに記載のプログラム。
(付記33)
所定の単語の読み情報に基づいて定まり、かつ、音声認識によって音声データに含まれる前記所定の単語を検出し、検出した単語毎の検出頻度を取得する際に、前記検出される単語が誤検出され易い程度を示す特徴に基づいて、誤検出されて前記検出頻度に含まれたと推定される誤検出割合を補正するための補正値を前記検出頻度に適用することにより、前記検出頻度の前記誤検出割合が補正された推定検出頻度を算出する、
ことを含む頻度算出処理をコンピュータに実行させるためのプログラム。