JP2010197706A

JP2010197706A - 話題判定装置および話題判定方法

Info

Publication number: JP2010197706A
Application number: JP2009042344A
Authority: JP
Inventors: Shi Cho; 志鵬張; Nobuhiko Naka; 信彦仲
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2009-02-25
Filing date: 2009-02-25
Publication date: 2010-09-09
Anticipated expiration: 2029-02-25
Also published as: JP5148532B2

Abstract

【課題】例えば詐欺等の話題を精度よく判定できる話題判定装置および話題判定方法を提供する。
【解決手段】話題判定装置１００は、詐欺の話題に特化したデータを収集する詐欺データ収集部１２０、当該データを用いて詐欺の話題に特化した詐欺LMを作成する詐欺LM作成部１３０、当該詐欺LMを保持する詐欺LM保持部１４０、音響モデルを保持する音響モデル保持部１５０、詐欺LMおよび音響モデルを用いて入力音声に対する音声認識を行い、且つ音声認識の結果に対するスコアを計算する音声認識部１６０、入力音声の内容が詐欺の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持部１７０、音声認識部１６０が計算したスコアを入力し、当該スコアが閾値保持部１７０に保持された閾値以上である場合に、入力音声の内容が詐欺の話題に相当すると判定する判定部１８０、を備える。
【選択図】図１

Description

本発明は、話題判定装置および話題判定方法に関するものである。

近年、電話を利用した詐欺事件が発生していることに鑑み、例えば特許文献１には、発話内容から詐欺に関するキーワードを音声認識技術により検知することによって、例えば「オレオレ詐欺」等を防止するといった技術が開示されている。

特開２００７−１３９８６４号公報

特許文献１を始めとする従来技術ではキーワード検知による話題判定を行っている。すなわち、詐欺の話題を判定するためのキーワード（例えば「お金」、「使い込んだ」、「監査」、「横領」等）を事前に設定し、発話中に当該設定したキーワードの出現回数を数え、出現回数が一定回数を超えたら詐欺の話題であると判定する。

このような従来の手法ではキーワードに対する認識率が低下した場合に話題判定の精度も共に低下するといった問題点がある。例えば、以下の発話が行われたとする。
発話：“会社のお金を使い込んだ。払わないと監査に間に合わない。このままでは横領罪になって捕まってしまう。”
この発話に対して音声認識を行った結果、以下のように誤認識されたとする。
音声認識結果：“会社のお金を使いこなした。払わないと検査に間に合わない。このままでは奉公になって捕まってしまう。”
なお、このような誤認識は特に珍しいものでもなく、音声認識の精度に応じては、十分に起こり得る程度のものである。

以上のような誤認識の場合に、事前に設定した例えば「使い込んだ」、「監査」、「横領」等のキーワードが検知できず、詐欺の話題の判定は困難となる。更に、電話音声はその帯域が狭く、雑音の影響が大きいので、認識率が低い。このような状況においてキーワードだけで詐欺の話題を適切に判定することは非常に困難である。また、キーワードそのものの設定も難しい。例えば「お金」や「監査」等をキーワードとして設定した場合に、発話の中でこのようなキーワードが検知されたことだけを詐欺の話題の判定基準としては、話題判定の精度が低くなってしまう。

そこで、本発明は上記に鑑みてなされたもので、例えば詐欺等の話題を精度よく判定することが可能な話題判定装置および話題判定方法を提供することを目的とする。

上記課題を解決するために、本発明の話題判定装置は、特定の話題に特化したデータを収集するデータ収集手段と、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成手段と、前記話題特化言語モデル作成手段が作成した話題特化言語モデルを保持する言語モデル保持手段と、音声認識を行うための音響モデルを保持する音響モデル保持手段と、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて、入力音声に対する音声認識を行い、且つ前記音声認識の結果に対するスコアを計算する音声認識手段と、前記入力音声の内容が前記特定の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持手段と、前記音声認識手段が計算したスコアを入力し、当該スコアが前記閾値保持手段に保持された閾値以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定手段と、を備えることを特徴とする。

また、本発明の話題判定方法は、データ収集手段が、特定の話題に特化したデータを収集するデータ収集ステップと、話題特化言語モデル作成手段が、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成ステップと、言語モデル保持手段が、前記話題特化言語モデル作成手段が作成した話題特化言語モデルを保持する言語モデル保持ステップと、音響モデル保持手段が、音声認識を行うための音響モデルを保持する音響モデル保持ステップと、音声認識手段が、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて、入力音声に対する音声認識を行い、且つ前記音声認識の結果に対するスコアを計算する音声認識ステップと、閾値保持手段が、前記入力音声の内容が前記特定の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持ステップと、判定手段が、前記音声認識手段が計算したスコアを入力し、当該スコアが前記閾値保持手段に保持された閾値以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定ステップと、を備えることを特徴とする。

このような本発明の話題判定装置および話題判定方法によれば、特定の話題に特化したデータより作成した話題特化言語モデルを用いて、入力音声に対する音声認識を行い、その結果に対するスコアを閾値と比較することにより、話題判定を行う。このことにより、キーワードの出現回数に基づいた話題判定手法に比べ、精度の高い話題判定を行うことができる。例えば特定のキーワードが認識されなかった場合でも、適切な話題判定が行われる。

また、本発明の話題判定装置において、前記話題特化言語モデルは、単語の出現確率をモデル化した統計的言語モデルであっても良い。

話題判定に単語の出現確率を用いることにより、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、精度の高い話題判定を行うことができる。単語の出現確率をモデル化した統計的言語モデルとしては、例えばuni-gramがある。

また、本発明の話題判定装置において、前記話題特化言語モデルは、単語間の接続確率をモデル化した統計的言語モデルであっても良い。

話題判定に単語間の接続確率を用いることにより、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、精度の高い話題判定を行うことができる。単語間の接続確率をモデル化した統計的言語モデルとしては、例えばn-gramがある。

また、本発明の話題判定装置において、前記特定の話題は、詐欺の話題でああっても良い。

本発明は、詐欺の話題を判定する場合に特に有用である。

また、本発明の話題判定装置において、前記入力音声は、電話機を用いた発声であっても良い。

本発明によれば、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、その精度が高まる。このため、本発明は、帯域が狭く且つ雑音の影響が大きいことから認識率が低い電話音声の場合に、特に有用である。

また、本発明の話題判定装置は、特定の話題に特化したデータを収集するデータ収集手段と、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成手段と、前記話題特化言語モデル作成手段が作成した話題特化言語モデル、および前記特定の話題に特化していない一般話題言語モデルを保持する言語モデル保持手段と、音声認識を行うための音響モデルを保持する音響モデル保持手段と、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて入力音声に対する第１音声認識を行い、且つ前記言語モデル保持手段に保持された一般話題言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて前記入力音声に対する第２音声認識を行い、更に前記第１音声認識の結果に対する第１スコアおよび前記第２音声認識の結果に対する第２スコアを計算する音声認識手段と、前記音声認識手段が計算した第１スコアおよび第２スコアを入力し、前記第１スコアが前記第２スコア以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定手段と、を備えることを特徴とする。

また、本発明の話題判定方法は、データ収集手段が、特定の話題に特化したデータを収集するデータ収集ステップと、話題特化言語モデル作成手段が、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成ステップと、言語モデル保持手段が、前記話題特化言語モデル作成手段が作成した話題特化言語モデル、および前記特定の話題に特化していない一般話題言語モデルを保持する言語モデル保持ステップと、音響モデル保持手段が、音声認識を行うための音響モデルを保持する音響モデル保持ステップと、音声認識手段が、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて入力音声に対する第１音声認識を行い、且つ前記言語モデル保持手段に保持された一般話題言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて前記入力音声に対する第２音声認識を行い、更に前記第１音声認識の結果に対する第１スコアおよび前記第２音声認識の結果に対する第２スコアを計算する音声認識ステップと、判定手段が、前記音声認識手段が計算した第１スコアおよび第２スコアを入力し、前記第１スコアが前記第２スコア以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定ステップと、を備えることを特徴とする。

このような本発明の話題判定装置および話題判定方法によれば、特定の話題に特化したデータより作成した話題特化言語モデルを用いて入力音声に対する第１音声認識を行い、且つ特定の話題に特化していない一般話題言語モデルを用いて入力音声に対する第２音声認識を行い、それらの結果に対するそれぞれのスコアを比較することにより、話題判定を行う。このことにより、キーワードの出現回数に基づいた話題判定手法に比べ、精度の高い話題判定を行うことができる。例えば特定のキーワードが認識されなかった場合でも、適切な話題判定が行われる。更に、閾値を別途定める必要がないというメリットがある。

また、本発明の話題判定装置は、前記特定の話題に特化したキーワードを保持するキーワード保持手段を更に備え、前記判定手段は、前記第１スコアが前記第２スコア以上であることに加え、前記第１音声認識の結果または前記第２音声認識の結果に前記キーワードが一定回数以上検知された場合に、前記入力音声の内容が前記特定の話題に相当すると判定しても良い。

スコア比較によりある程度の話題判定が進んだら、この時点でキーワードによる更なる話題判定を行う。つまり、言語モデルによる第１話題判定とキーワードによる第２話題判定を重ねて行う。キーワードによる第２話題判定は、第１話題判定が終わった時点で行うので、当該話題に対するキーワードの設定は比較的にしやすくなる。また、複数回の話題判定を行うことにより、話題判定の精度を更に高めることができる。

本発明によれば、例えば詐欺等の話題を精度よく判定することが可能な話題判定装置および話題判定方法を提供することができる。

第１実施形態にかかる詐欺判定装置１００の構成概要図である。詐欺判定装置１００のハードウェア構成図である。詐欺判定装置１００により行われる動作を示すフローチャートである。第２実施形態にかかる詐欺判定装置２００の構成概要図である。詐欺判定装置２００により行われる動作を示すフローチャートである。第３実施形態にかかる詐欺判定装置３００の構成概要図である。詐欺判定装置３００により行われる動作を示すフローチャートである。

以下、添付図面を参照して本発明にかかる話題判定装置および話題判定方法の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。

＜第１実施形態＞
（詐欺判定装置１００の構成）
まず、本発明の第１実施形態に係る詐欺判定装置１００の構成について、図１および図２を参照しながら説明する。図１は詐欺判定装置１００の構成概要図であり、図２はそのハードウェア構成図である。詐欺判定装置１００は、例えば電話機（図示せず）を用いた発声である入力音声に対して音声認識を行い、その内容が特定の話題に関連した内容であるか否かを判定する装置である。本実施形態における「特定の話題」とは、例えば「オレオレ詐欺」等の電話機を用いた詐欺の話題である。

図２に示すように、詐欺判定装置１００は、物理的には、ＣＰＵ１１、ＲＯＭ１２及びＲＡＭ１３等の主記憶装置、キーボード及びマウス等の入力デバイス１４、ディスプレイ等の出力デバイス１５、例えば電話機等の他の装置（図示せず）との間でデータの送受信を行う通信モジュール１６、ハードディスク等の補助記憶装置１７などを含む通常のコンピュータシステムとして構成される。後述する詐欺判定装置１００の各機能は、ＣＰＵ１１、ＲＯＭ１２、ＲＡＭ１３等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、ＣＰＵ１１の制御の元で入力デバイス１４、出力デバイス１５、通信モジュール１６を動作させると共に、主記憶装置１２，１３や補助記憶装置１７におけるデータの読み出し及び書き込みを行うことで実現される。

図１に示すように、詐欺判定装置１００は、機能的には、音声入力部１１０、詐欺データ収集部１２０（特許請求の範囲の「データ収集手段」に相当）、詐欺言語モデル作成部１３０（特許請求の範囲の「話題特化言語モデル作成手段」に相当）、詐欺言語モデル保持部１４０（特許請求の範囲の「言語モデル保持手段」に相当）、音響モデル保持部１５０（特許請求の範囲の「音響モデル保持手段」に相当）、音声認識部１６０（特許請求の範囲の「音声認識手段」に相当）、閾値保持部１７０（特許請求の範囲の「閾値保持手段」に相当）、および判定部１８０（特許請求の範囲の「判定手段」に相当）を備える。

音声入力部１１０は入力音声を受信するものであり、物理的には図２に示した通信モジュール１６として構成することができる。詐欺判定装置１００が電話機と別のものとして構成されている場合には、音声入力部１１０は当該電話機から有線または無線ネットワーク（図示せず）を通じて入力音声のデータを受信する。詐欺判定装置１００が電話機内の一つのモジュールとして組み込まれている場合には、音声入力部１１０は当該電話機内の所定の通信経路（図示せず）を通じて入力音声のデータを受信する。音声入力部１１０は入力した音声データを音声認識部１６０に出力する。

詐欺データ収集部１２０は、特定の話題、つまり詐欺話題に特化した言語データを収集するものである。詐欺データ収集部１２０が収集する言語データの例を以下に示す。なお、詐欺データ収集部１２０は、詐欺の手口に応じ、詐欺内容のデータを随時更新するようにしても良い。
言語データの例：
“学生時代の友人に頼まれ、借金の保証人になってしまった。”
“友人が返済できず、保証人の僕がサラ金から借金をして返すことになった。”
“ご主人が、電車内で痴漢・わいせつ行為をやって捕まっている。示談が成立しなければ裁判になる。”

詐欺言語モデル作成部１３０は、詐欺データ収集部１２０が収集したデータを用いて、詐欺の話題に特化した言語モデルである詐欺話題特化言語モデル（特許請求の範囲の「話題特化言語モデル」に相当）を作成するものである。以下、「詐欺話題特化言語モデル」を略して「詐欺LM」と記載、「言語モデル」を略して「LM」と記載する。詐欺LM作成部１３０が作成する詐欺LMの一例として、例えばuni-gram等の単語の出現確率をモデル化した統計的言語モデルが挙げられる。また、詐欺LM作成部１３０が作成する詐欺LMの他の一例として、例えばn-gram等の単語間の接続確率をモデル化した統計的言語モデルが挙げられる。統計的言語モデルを作成する手法そのものは、例えば下記の参考文献１に開示されているように公知の技術であるため、ここでは説明を省略する。
参考文献１：音声認識システム、ISBN/ASIN：4-274-13228-5、鹿野清宏他、オーム社

このように作成される詐欺LMは詐欺話題に特化しているので、詐欺に関連した単語の出現確率や単語間の接続確率が高く設定されている。このため、入力音声が詐欺内容であれば、その入力音声に対する音声認識の結果は詐欺LMにおける高いスコアを有する。その反面、詐欺に関連していない単語の出現確率や単語間の接続確率は、詐欺LMにおいて低く設定されている。このため、入力音声が詐欺内容でなければ、その入力音声に対する音声認識の結果は詐欺LMにおける低いスコアを有する。

詐欺LM保持部１４０は、詐欺LM作成部１３０が作成した詐欺LMを保持するものである。

音響モデル保持部１５０は、音声認識を行うための音響モデルを保持するものである。

音声認識部１６０は、詐欺LM保持部１４０に保持された詐欺LMおよび音響モデル保持部１５０に保持された音響モデルを用いて、音声入力部１１０より入力された入力音声に対する音声認識を行うものである。音声認識部１６０は音声認識を行った後に、当該結果に対するスコアSを更に計算し、計算後のスコアSを判定部１８０に出力する。なお、音声認識を行う手法およびスコアを計算する手法そのものは、例えば上記の参考文献１に開示されているように公知の技術であるため、ここでは説明を省略する。音声認識部１６０は、音声認識の結果を無視し、音声認識の結果である単語列から導出したスコアSのみを、話題判定処理のパラメータとして判定部１８０に出力しても良い。このことには、音声認識の結果を保持しておく必要がなくなるといったメリットがある。また、音声認識部１６０は、当該スコアSに対し、発話の長さに基づいた正規化を行うようにしても良い。

閾値保持部１７０は、判定部１８０が話題判定処理を行う際に必要とする閾値Xを保持するものである。閾値Xは、入力音声の内容が詐欺の話題に相当するか否かを判定するための判断基準となるものである。

判定部１８０は、音声認識部１６０が計算したスコアSを入力し、当該スコアSが閾値保持部１７０に保持された閾値X以上である場合に、入力音声の内容が詐欺の話題に相当すると判定するものである。

（詐欺判定装置１００の動作）
続いて、詐欺判定装置１００により行われる動作（特許請求の範囲の「話題判定方法」）について、図３を参照しながら説明する。図３は詐欺判定装置１００により行われる動作を示すフローチャートである。なお、以下の説明においては、詐欺データ収集部１２０および詐欺LM作成部１３０による詐欺データ収集処理および詐欺LM作成処理（特許請求の範囲の「データ収集ステップ」および「話題特化言語モデル作成ステップ」に相当）は既に行われており、作成された詐欺LMが既に詐欺LM保持部１４０に保持されているものとする（特許請求の範囲の「言語モデル保持ステップ」に相当）。また、音響モデルにおいても、既に音響モデル保持部１５０に保持されているものとする（特許請求の範囲の「音響モデル保持ステップ」に相当）。また、閾値保持部１７０には、入力音声の内容が詐欺の話題に相当するか否かを判定するための判断基準となる閾値Xが既に保持されているものとする（特許請求の範囲の「閾値保持ステップ」に相当）。

最初に、音声入力部１１０が入力音声を受信し、音声認識部１６０に出力する。（ステップＳ１１）。

次に、音声認識部１６０が、詐欺LM保持部１４０に保持された詐欺LMおよび音響モデル保持部１５０に保持された音響モデルを用いて、音声入力部１１０より入力された入力音声に対する音声認識を行う（ステップＳ１２、特許請求の範囲の「音声認識ステップ」に相当）。

次に、音声認識部１６０が、ステップＳ１２の音声認識の結果に対するスコアSを計算し、計算後のスコアSを判定部１８０に出力する（ステップＳ１３、特許請求の範囲の「音声認識ステップ」に相当）。

次に、判定部１８０が、音声認識部１６０が計算したスコアSを入力し、当該スコアSが閾値保持部１７０に保持された閾値X以上である場合に（ステップＳ１４：ＹＥＳ）、入力音声の内容が詐欺の話題に相当すると判定する（ステップＳ１５、特許請求の範囲の「判定ステップ」に相当）。一方、当該スコアSが閾値保持部１７０に保持された閾値X以上でない場合には（ステップＳ１４：ＮＯ）、処理はそのまま終了する。つまり、詐欺の話題とは判定しない。

以上の流れにおいて、ステップＳ１１にて例えば以下の入力音声が受信されたとする。
入力音声の例： “会社のお金を使い込んだ。払わないと監査に間に合わない。このままでは横領罪になって捕まってしまう。”
このような入力音声に対してステップＳ１２の音声認識処理を行い、以下のような結果を得たとする。
音声認識の結果の例：“会社のお金を使いこなした。払わないと検査に間に合わない。このままでは奉公になって捕まってしまう。”
このような音声認識処理の結果に対してステップＳ１３のスコア計算処理を行い、そのスコアＳが例えば0.8であり、閾値Ｘが例えば0.7である場合には、ステップＳ１５において上記入力音声は詐欺の話題であると判定される。つまり、本実施形態により、帯域が狭く且つ雑音の影響が大きいことから認識率が特に低い電話音声の場合に、「使い込んだ」、「監査」、「横領」等のキーワードが適切に認識されなかったにもかかわらず、入力音声が詐欺の話題であるか否かが適切に判定される。

以上で説明した本発明の第１実施形態によれば、詐欺という特定の話題に特化したデータより作成した詐欺ＬＭを用いて、入力音声に対する音声認識を行い、その結果に対するスコアＳを閾値Ｘと比較することにより、話題判定を行う。このことにより、キーワードの出現回数に基づいた話題判定手法に比べ、精度の高い話題判定を行うことができる。例えば特定のキーワードが認識されなかった場合でも、適切な話題判定が行われる。

また、話題判定に単語の出現確率を用いることにより、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、精度の高い話題判定を行うことができる。単語の出現確率をモデル化した統計的言語モデルとしては、例えばuni-gramがある。

また、話題判定に単語間の接続確率を用いることにより、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、精度の高い話題判定を行うことができる。単語間の接続確率をモデル化した統計的言語モデルとしては、例えばn-gramがある。

以上のように、本発明によれば、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、その精度が高まる。このため、本発明は、帯域が狭く且つ雑音の影響が大きいことから認識率が低い電話音声の場合に、特に有用である。

＜第２実施形態＞
続いて、本発明の第２実施形態について説明する。なお、上記説明した第１実施形態と重複する部分については説明を省略し、第１実施形態との相違点を中心に説明する。

図４は、第２実施形態にかかる詐欺判定装置２００の構成概要図である。第１実施形態における詐欺判定装置１００と比べると、詐欺判定装置２００は、一般言語モデル保持部２１０（特許請求の範囲の「言語モデル保持手段」に相当、以下「一般ＬＭ保持部２１０」と記載）を更に備え、音声認識部１６０の代わりに第１音声認識部２２０（特許請求の範囲の「音声認識手段」に相当）および第２音声認識部２３０（特許請求の範囲の「音声認識手段」に相当）を備え、閾値保持部１７０を備えない。

一般ＬＭ保持部２１０は、詐欺の話題に特化していない言語モデルである一般ＬＭ（特許請求の範囲の「一般話題言語モデル」に相当）を保持するものである。この一般ＬＭは、詐欺判定装置２００内で作成されても良く、外部で作成されたものを入力するようにしても良い。言語モデルを作成する手法そのものは、例えば上記の参考文献１に開示されているように公知の技術であるため、ここでは説明を省略する。なお、一般ＬＭは詐欺話題に特化していないので、詐欺に関連した単語の出現確率や単語間の接続確率が詐欺に関連していない単語の出現確率や単語間の接続確率より特別に高い訳ではない。

第１音声認識部２２０は、詐欺LM保持部１４０に保持された詐欺LMおよび音響モデル保持部１５０に保持された音響モデルを用いて、音声入力部１１０より入力された入力音声に対する音声認識（第１音声認識）を行うものである。音声認識部１６０は第１音声認識を行った後に、当該結果に対するスコア（第１スコアS１）を更に計算し、計算後の第１スコアS１を判定部１８０に出力する。

第２音声認識部２３０は、一般ＬＭ保持部２１０に保持された一般LMおよび音響モデル保持部１５０に保持された音響モデルを用いて、音声入力部１１０より入力された入力音声に対する音声認識（第２音声認識）を行うものである。音声認識部１６０は第２音声認識を行った後に、当該結果に対するスコア（第２スコアS２）を更に計算し、計算後の第２スコアS２を判定部１８０に出力する。

判定部１８０は、第１音声認識部２２０および第２音声認識部２３０が計算した第１スコアS１および第２スコアS２を入力し、第１スコアS１が第２スコアS２以上である場合に、入力音声の内容が詐欺の話題に相当すると判定する。

（詐欺判定装置２００の動作）
続いて、詐欺判定装置２００により行われる動作（特許請求の範囲の「話題判定方法」）について、図５を参照しながら説明する。図５は詐欺判定装置２００により行われる動作を示すフローチャートである。なお、以下の説明においては、詐欺データ収集部１２０および詐欺LM作成部１３０による詐欺データ収集処理および詐欺LM作成処理（特許請求の範囲の「データ収集ステップ」および「話題特化言語モデル作成ステップ」に相当）は既に行われており、作成された詐欺LMが既に詐欺LM保持部１４０に保持されており、詐欺の話題に特化していない一般ＬＭが既に一般LM保持部２１０に保持されているものとする（特許請求の範囲の「言語モデル保持ステップ」に相当）。また、音響モデルにおいても、既に音響モデル保持部１５０に保持されているものとする（特許請求の範囲の「音響モデル保持ステップ」に相当）。

最初に、音声入力部１１０が入力音声を受信し、第１音声認識部２２０および第２音声認識部２３０に出力する。（ステップＳ２１）。

次に、第１音声認識部２２０が、詐欺LM保持部１４０に保持された詐欺LMおよび音響モデル保持部１５０に保持された音響モデルを用いて、音声入力部１１０より入力された入力音声に対する第１音声認識を行う（ステップＳ２２、特許請求の範囲の「音声認識ステップ」に相当）。

次に、第１音声認識部２２０が、ステップＳ２２の音声認識の結果に対する第１スコアS１を計算し、計算後の第１スコアS１を判定部１８０に出力する（ステップＳ２３、特許請求の範囲の「音声認識ステップ」に相当）。

次に、第２音声認識部２３０が、一般ＬＭ保持部２１０に保持された一般LMおよび音響モデル保持部１５０に保持された音響モデルを用いて、音声入力部１１０より入力された入力音声に対する第２音声認識を行う（ステップＳ２４、特許請求の範囲の「音声認識ステップ」に相当）。

次に、第２音声認識部２３０が、ステップＳ２４の音声認識の結果に対する第２スコアS２を計算し、計算後の第２スコアS２を判定部１８０に出力する（ステップＳ２５、特許請求の範囲の「音声認識ステップ」に相当）。

次に、判定部１８０が、第１音声認識部２２０および第２音声認識部２３０が計算した第１スコアS１および第２スコアS２を入力し、第１スコアS１が第２スコアS２以上である場合に（ステップＳ２６：ＹＥＳ）、入力音声の内容が詐欺の話題に相当すると判定する（ステップＳ２７、特許請求の範囲の「判定ステップ」に相当）。一方、第１スコアS１が第２スコアS２以上でない場合には（ステップＳ２６：ＮＯ）、処理はそのまま終了する。つまり、詐欺の話題とは判定しない。

以上の流れにおいて、ステップＳ２１にて例えば以下の入力音声が受信されたとする。
入力音声の例：“会社のお金を使い込んだ。払わないと監査に間に合わない。このままでは横領罪になって捕まってしまう。”
このような入力音声に対してステップＳ２２の音声認識処理およびステップＳ２４の音声認識処理を行い、以下のような結果を得たとする。
Ｓ２２の結果例：“カードのお金を使いこなした。払わないと検査に間に合わない。警察局では奉公になって捕まってしまう。”
Ｓ２４の結果例：“会社のお金を使いこなした。払わないと検査に間に合わない。このままでは奉公になって捕まってしまう。”
このような音声認識処理の結果に対してステップＳ２３およびステップＳ２５のスコア計算処理を行い、第１スコアS１が例えば0.8であり、第２スコアS２が例えば0.4である場合には、ステップＳ２７において上記入力音声は詐欺の話題であると判定される。つまり、本実施形態により、帯域が狭く且つ雑音の影響が大きいことから認識率が特に低い電話音声の場合に、「使い込んだ」、「監査」、「横領」等のキーワードが適切に認識されなかったにもかかわらず、入力音声が詐欺の話題であるか否かが適切に判定される。

以上で説明した本発明の第２実施形態によれば、詐欺という特定の話題に特化したデータより作成した詐欺ＬＭを用いて、入力音声に対する第１音声認識を行い、且つ詐欺という特定の話題に特化していない一般ＬＭを用いて、入力音声に対する第２音声認識を行い、それらの結果に対するそれぞれのスコアを比較することにより、話題判定を行う。このことにより、キーワードの出現回数に基づいた話題判定手法に比べ、精度の高い話題判定を行うことができる。例えば特定のキーワードが認識されなかった場合でも、適切な話題判定が行われる。更に、閾値を別途定める必要がないというメリットがある。

＜第３実施形態＞
続いて、本発明の第３実施形態について説明する。なお、上記説明した第１実施形態や第２実施形態と重複する部分については説明を省略し、第１実施形態や第２実施形態との相違点を中心に説明する。

図６は、第３実施形態にかかる詐欺判定装置３００の構成概要図である。第２実施形態における詐欺判定装置２００と比べると、詐欺判定装置３００は、キーワード保持部３１０（特許請求の範囲の「キーワード保持手段」に相当）を更に備える。キーワード保持部３１０は、例えば詐欺という特定の話題に特化したキーワードを保持するものである。

第３実施形態にかかる詐欺判定装置３００の判定部１８０は、第１音声認識部２２０および第２音声認識部２３０が計算した第１スコアS１および第２スコアS２を入力し、第１スコアS１が第２スコアS２以上であることに加え、第１音声認識の結果または第２音声認識の結果に上記キーワードが一定回数以上検知された場合に、入力音声の内容が詐欺の話題に相当すると判定する。

（詐欺判定装置３００の動作）
続いて、詐欺判定装置３００により行われる動作（特許請求の範囲の「話題判定方法」）について、図７を参照しながら説明する。図７は詐欺判定装置３００により行われる動作を示すフローチャートである。なお、以下の説明においては、詐欺データ収集部１２０および詐欺LM作成部１３０による詐欺データ収集処理および詐欺LM作成処理（特許請求の範囲の「データ収集ステップ」および「話題特化言語モデル作成ステップ」に相当）は既に行われており、作成された詐欺LMが既に詐欺LM保持部１４０に保持されており、詐欺の話題に特化していない一般ＬＭが既に一般LM保持部２１０に保持されているものとする（特許請求の範囲の「言語モデル保持ステップ」に相当）。また、音響モデルにおいても、既に音響モデル保持部１５０に保持されているものとする（特許請求の範囲の「音響モデル保持ステップ」に相当）。

最初に、上記第２実施形態にて説明したステップＳ２１〜ステップＳ２５の処理が行われる（特許請求の範囲の「音声認識ステップ」に相当）。

次に、判定部１８０が、第１音声認識部２２０および第２音声認識部２３０が計算した第１スコアS１および第２スコアS２を入力し、第１スコアS１が第２スコアS２以上である場合に（ステップＳ２６：ＹＥＳ）、入力音声の内容が詐欺の話題に相当すると暫定的に判定する。これを詐欺話題判定の第１段階という。

次に、判定部１８０が、第１音声認識の結果または第２音声認識の結果に上記キーワードが一定回数以上検知された場合に（ステップＳ３１：ＹＥＳ）、入力音声の内容が詐欺の話題に相当すると最終的に判定する。これを詐欺話題判定の第２段階という。なお、本実施形態では、上記の一定回数を例えば１回とする。

一方、第１スコアS１が第２スコアS２以上でない場合（ステップＳ２６：ＮＯ）、または第１スコアS１が第２スコアS２以上であるがキーワードが発見されない場合には（ステップＳ３１：ＮＯ）、処理はそのまま終了する。つまり、詐欺の話題とは判定しない。

以上の流れにおいて、話題判定をステップＳ２６およびステップＳ３１の２段階で行う理由は以下のようである。すなわち、例えば「オレオレ詐欺」等の詐欺事件において、詐欺を犯す者は、まず、背景の説明を行う。例えば、警察を偽って、被害者の家族に刑事事件が発生したことやその進行状況および結果を説明する。この段階を詐欺行為の第１段階とすると、この第１段階を通じて、詐欺を犯す者は、被害者の信頼を得てしまい、いよいよ本題、つまり実際の振込みの話に入る。詐欺を犯す者が本題の話をする段階を詐欺行為の第２段階とすると、この第２段階における発話内容は決まった文句になりやすい。例えば、“＊＊＊円のお金を口座＊＊＊に振り込んでくれ！”等である。この第２段階で使用される言葉は、詐欺行為において極めて重要な言葉となることが多く、その種類や数も比較的に少ない。つまり、第１段階における背景説明が何れの内容であるかにかかわらず、第２段階における発話は事前に予想可能な決まった文句になりやすい。したがって、この第２段階におけるキーワードは、第１段階におけるキーワードと異なり、事前に設定することが困難なものとはならない。しかも、第２段階におけるキーワードにより、話題判定の精度が更に高くなる。なお、従来技術においては、本実施形態における第１段階や第２段階との概念を考慮しないままでキーワードによる話題判定をしたため、その精度が高くなかったことが言える。

以上で説明した本発明の第３実施形態によれば、スコア比較によりある程度の話題判定が進んだら、この時点でキーワードによる更なる話題判定を行う。つまり、言語モデルによる第１話題判定とキーワードによる第２話題判定を重ねて行う。キーワードによる第２話題判定は、第１話題判定が終わった時点で行うので、当該話題に対するキーワードの設定は比較的にしやすくなる。また、複数回の話題判定を行うことにより、話題判定の精度を更に高めることができる。

以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されないことは言うまでもない。

例えば、上記実施形態においては、「特定の話題」として「詐欺」を一例としたが、これに限られることなく、「詐欺」以外の他の話題として良い。

また、上記実施形態においては、言語モデルの一例としてuni-gramやn-gramを挙げて説明したが、これに限られることなく、uni-gramやn-gram以外の他の言語モデルを本発明の概念に適宜用いても良い。

１００，２００，３００…詐欺判定装置、１１０…音声入力部、１２０…詐欺データ収集部、１３０…詐欺言語モデル作成部（詐欺LM作成部）、１４０…詐欺言語モデル保持部（詐欺LM保持部）、１５０…音響モデル保持部、１６０…音声認識部、１７０…閾値保持部、１８０…判定部、２１０…一般言語モデル保持部（一般LM保持部）、２２０…第１音声認識部、２３０…第２音声認識部、３１０…キーワード保持部。

Claims

特定の話題に特化したデータを収集するデータ収集手段と、
前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成手段と、
前記話題特化言語モデル作成手段が作成した話題特化言語モデルを保持する言語モデル保持手段と、
音声認識を行うための音響モデルを保持する音響モデル保持手段と、
前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて、入力音声に対する音声認識を行い、且つ前記音声認識の結果に対するスコアを計算する音声認識手段と、
前記入力音声の内容が前記特定の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持手段と、
前記音声認識手段が計算したスコアを入力し、当該スコアが前記閾値保持手段に保持された閾値以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定手段と、
を備えることを特徴とする話題判定装置。
前記話題特化言語モデルは、単語の出現確率をモデル化した統計的言語モデルであることを特徴とする請求項１に記載の話題判定装置。
前記話題特化言語モデルは、単語間の接続確率をモデル化した統計的言語モデルであることを特徴とする請求項１に記載の話題判定装置。
前記特定の話題は、詐欺の話題であることを特徴とする請求項１〜３何れか１項に記載の話題判定装置。
前記入力音声は、電話機を用いた発声であることを特徴とする請求項１〜４何れか１項に記載の話題判定装置。
特定の話題に特化したデータを収集するデータ収集手段と、
前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成手段と、
前記話題特化言語モデル作成手段が作成した話題特化言語モデル、および前記特定の話題に特化していない一般話題言語モデルを保持する言語モデル保持手段と、
音声認識を行うための音響モデルを保持する音響モデル保持手段と、
前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて入力音声に対する第１音声認識を行い、且つ前記言語モデル保持手段に保持された一般話題言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて前記入力音声に対する第２音声認識を行い、更に前記第１音声認識の結果に対する第１スコアおよび前記第２音声認識の結果に対する第２スコアを計算する音声認識手段と、
前記音声認識手段が計算した第１スコアおよび第２スコアを入力し、前記第１スコアが前記第２スコア以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定手段と、
を備えることを特徴とする話題判定装置。
前記特定の話題に特化したキーワードを保持するキーワード保持手段を更に備え、
前記判定手段は、前記第１スコアが前記第２スコア以上であることに加え、前記第１音声認識の結果または前記第２音声認識の結果に前記キーワードが一定回数以上検知された場合に、前記入力音声の内容が前記特定の話題に相当すると判定することを特徴とする請求項６に記載の話題判定装置。
データ収集手段が、特定の話題に特化したデータを収集するデータ収集ステップと、
話題特化言語モデル作成手段が、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成ステップと、
言語モデル保持手段が、前記話題特化言語モデル作成手段が作成した話題特化言語モデルを保持する言語モデル保持ステップと、
音響モデル保持手段が、音声認識を行うための音響モデルを保持する音響モデル保持ステップと、
音声認識手段が、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて、入力音声に対する音声認識を行い、且つ前記音声認識の結果に対するスコアを計算する音声認識ステップと、
閾値保持手段が、前記入力音声の内容が前記特定の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持ステップと、
判定手段が、前記音声認識手段が計算したスコアを入力し、当該スコアが前記閾値保持手段に保持された閾値以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定ステップと、
を備えることを特徴とする話題判定方法。
データ収集手段が、特定の話題に特化したデータを収集するデータ収集ステップと、
話題特化言語モデル作成手段が、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成ステップと、
言語モデル保持手段が、前記話題特化言語モデル作成手段が作成した話題特化言語モデル、および前記特定の話題に特化していない一般話題言語モデルを保持する言語モデル保持ステップと、
音響モデル保持手段が、音声認識を行うための音響モデルを保持する音響モデル保持ステップと、
音声認識手段が、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて入力音声に対する第１音声認識を行い、且つ前記言語モデル保持手段に保持された一般話題言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて前記入力音声に対する第２音声認識を行い、更に前記第１音声認識の結果に対する第１スコアおよび前記第２音声認識の結果に対する第２スコアを計算する音声認識ステップと、
判定手段が、前記音声認識手段が計算した第１スコアおよび第２スコアを入力し、前記第１スコアが前記第２スコア以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定ステップと、
を備えることを特徴とする話題判定方法。