JP2010197706A - 話題判定装置および話題判定方法 - Google Patents

話題判定装置および話題判定方法 Download PDF

Info

Publication number
JP2010197706A
JP2010197706A JP2009042344A JP2009042344A JP2010197706A JP 2010197706 A JP2010197706 A JP 2010197706A JP 2009042344 A JP2009042344 A JP 2009042344A JP 2009042344 A JP2009042344 A JP 2009042344A JP 2010197706 A JP2010197706 A JP 2010197706A
Authority
JP
Japan
Prior art keywords
topic
language model
specific
score
fraud
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009042344A
Other languages
English (en)
Other versions
JP5148532B2 (ja
Inventor
Shi Cho
志鵬 張
Nobuhiko Naka
信彦 仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2009042344A priority Critical patent/JP5148532B2/ja
Publication of JP2010197706A publication Critical patent/JP2010197706A/ja
Application granted granted Critical
Publication of JP5148532B2 publication Critical patent/JP5148532B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)

Abstract

【課題】例えば詐欺等の話題を精度よく判定できる話題判定装置および話題判定方法を提供する。
【解決手段】話題判定装置100は、詐欺の話題に特化したデータを収集する詐欺データ収集部120、当該データを用いて詐欺の話題に特化した詐欺LMを作成する詐欺LM作成部130、当該詐欺LMを保持する詐欺LM保持部140、音響モデルを保持する音響モデル保持部150、詐欺LMおよび音響モデルを用いて入力音声に対する音声認識を行い、且つ音声認識の結果に対するスコアを計算する音声認識部160、入力音声の内容が詐欺の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持部170、音声認識部160が計算したスコアを入力し、当該スコアが閾値保持部170に保持された閾値以上である場合に、入力音声の内容が詐欺の話題に相当すると判定する判定部180、を備える。
【選択図】図1

Description

本発明は、話題判定装置および話題判定方法に関するものである。
近年、電話を利用した詐欺事件が発生していることに鑑み、例えば特許文献1には、発話内容から詐欺に関するキーワードを音声認識技術により検知することによって、例えば「オレオレ詐欺」等を防止するといった技術が開示されている。
特開2007−139864号公報
特許文献1を始めとする従来技術ではキーワード検知による話題判定を行っている。すなわち、詐欺の話題を判定するためのキーワード(例えば「お金」、「使い込んだ」、「監査」、「横領」等)を事前に設定し、発話中に当該設定したキーワードの出現回数を数え、出現回数が一定回数を超えたら詐欺の話題であると判定する。
このような従来の手法ではキーワードに対する認識率が低下した場合に話題判定の精度も共に低下するといった問題点がある。例えば、以下の発話が行われたとする。
発話:“会社のお金を使い込んだ。払わないと監査に間に合わない。このままでは横領罪になって捕まってしまう。”
この発話に対して音声認識を行った結果、以下のように誤認識されたとする。
音声認識結果:“会社のお金を使いこなした。払わないと検査に間に合わない。このままでは奉公になって捕まってしまう。”
なお、このような誤認識は特に珍しいものでもなく、音声認識の精度に応じては、十分に起こり得る程度のものである。
以上のような誤認識の場合に、事前に設定した例えば「使い込んだ」、「監査」、「横領」等のキーワードが検知できず、詐欺の話題の判定は困難となる。更に、電話音声はその帯域が狭く、雑音の影響が大きいので、認識率が低い。このような状況においてキーワードだけで詐欺の話題を適切に判定することは非常に困難である。また、キーワードそのものの設定も難しい。例えば「お金」や「監査」等をキーワードとして設定した場合に、発話の中でこのようなキーワードが検知されたことだけを詐欺の話題の判定基準としては、話題判定の精度が低くなってしまう。
そこで、本発明は上記に鑑みてなされたもので、例えば詐欺等の話題を精度よく判定することが可能な話題判定装置および話題判定方法を提供することを目的とする。
上記課題を解決するために、本発明の話題判定装置は、特定の話題に特化したデータを収集するデータ収集手段と、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成手段と、前記話題特化言語モデル作成手段が作成した話題特化言語モデルを保持する言語モデル保持手段と、音声認識を行うための音響モデルを保持する音響モデル保持手段と、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて、入力音声に対する音声認識を行い、且つ前記音声認識の結果に対するスコアを計算する音声認識手段と、前記入力音声の内容が前記特定の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持手段と、前記音声認識手段が計算したスコアを入力し、当該スコアが前記閾値保持手段に保持された閾値以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定手段と、を備えることを特徴とする。
また、本発明の話題判定方法は、データ収集手段が、特定の話題に特化したデータを収集するデータ収集ステップと、話題特化言語モデル作成手段が、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成ステップと、言語モデル保持手段が、前記話題特化言語モデル作成手段が作成した話題特化言語モデルを保持する言語モデル保持ステップと、音響モデル保持手段が、音声認識を行うための音響モデルを保持する音響モデル保持ステップと、音声認識手段が、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて、入力音声に対する音声認識を行い、且つ前記音声認識の結果に対するスコアを計算する音声認識ステップと、閾値保持手段が、前記入力音声の内容が前記特定の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持ステップと、判定手段が、前記音声認識手段が計算したスコアを入力し、当該スコアが前記閾値保持手段に保持された閾値以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定ステップと、を備えることを特徴とする。
このような本発明の話題判定装置および話題判定方法によれば、特定の話題に特化したデータより作成した話題特化言語モデルを用いて、入力音声に対する音声認識を行い、その結果に対するスコアを閾値と比較することにより、話題判定を行う。このことにより、キーワードの出現回数に基づいた話題判定手法に比べ、精度の高い話題判定を行うことができる。例えば特定のキーワードが認識されなかった場合でも、適切な話題判定が行われる。
また、本発明の話題判定装置において、前記話題特化言語モデルは、単語の出現確率をモデル化した統計的言語モデルであっても良い。
話題判定に単語の出現確率を用いることにより、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、精度の高い話題判定を行うことができる。単語の出現確率をモデル化した統計的言語モデルとしては、例えばuni-gramがある。
また、本発明の話題判定装置において、前記話題特化言語モデルは、単語間の接続確率をモデル化した統計的言語モデルであっても良い。
話題判定に単語間の接続確率を用いることにより、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、精度の高い話題判定を行うことができる。単語間の接続確率をモデル化した統計的言語モデルとしては、例えばn-gramがある。
また、本発明の話題判定装置において、前記特定の話題は、詐欺の話題でああっても良い。
本発明は、詐欺の話題を判定する場合に特に有用である。
また、本発明の話題判定装置において、前記入力音声は、電話機を用いた発声であっても良い。
本発明によれば、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、その精度が高まる。このため、本発明は、帯域が狭く且つ雑音の影響が大きいことから認識率が低い電話音声の場合に、特に有用である。
また、本発明の話題判定装置は、特定の話題に特化したデータを収集するデータ収集手段と、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成手段と、前記話題特化言語モデル作成手段が作成した話題特化言語モデル、および前記特定の話題に特化していない一般話題言語モデルを保持する言語モデル保持手段と、音声認識を行うための音響モデルを保持する音響モデル保持手段と、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて入力音声に対する第1音声認識を行い、且つ前記言語モデル保持手段に保持された一般話題言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて前記入力音声に対する第2音声認識を行い、更に前記第1音声認識の結果に対する第1スコアおよび前記第2音声認識の結果に対する第2スコアを計算する音声認識手段と、前記音声認識手段が計算した第1スコアおよび第2スコアを入力し、前記第1スコアが前記第2スコア以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定手段と、を備えることを特徴とする。
また、本発明の話題判定方法は、データ収集手段が、特定の話題に特化したデータを収集するデータ収集ステップと、話題特化言語モデル作成手段が、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成ステップと、言語モデル保持手段が、前記話題特化言語モデル作成手段が作成した話題特化言語モデル、および前記特定の話題に特化していない一般話題言語モデルを保持する言語モデル保持ステップと、音響モデル保持手段が、音声認識を行うための音響モデルを保持する音響モデル保持ステップと、音声認識手段が、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて入力音声に対する第1音声認識を行い、且つ前記言語モデル保持手段に保持された一般話題言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて前記入力音声に対する第2音声認識を行い、更に前記第1音声認識の結果に対する第1スコアおよび前記第2音声認識の結果に対する第2スコアを計算する音声認識ステップと、判定手段が、前記音声認識手段が計算した第1スコアおよび第2スコアを入力し、前記第1スコアが前記第2スコア以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定ステップと、を備えることを特徴とする。
このような本発明の話題判定装置および話題判定方法によれば、特定の話題に特化したデータより作成した話題特化言語モデルを用いて入力音声に対する第1音声認識を行い、且つ特定の話題に特化していない一般話題言語モデルを用いて入力音声に対する第2音声認識を行い、それらの結果に対するそれぞれのスコアを比較することにより、話題判定を行う。このことにより、キーワードの出現回数に基づいた話題判定手法に比べ、精度の高い話題判定を行うことができる。例えば特定のキーワードが認識されなかった場合でも、適切な話題判定が行われる。更に、閾値を別途定める必要がないというメリットがある。
また、本発明の話題判定装置は、前記特定の話題に特化したキーワードを保持するキーワード保持手段を更に備え、前記判定手段は、前記第1スコアが前記第2スコア以上であることに加え、前記第1音声認識の結果または前記第2音声認識の結果に前記キーワードが一定回数以上検知された場合に、前記入力音声の内容が前記特定の話題に相当すると判定しても良い。
スコア比較によりある程度の話題判定が進んだら、この時点でキーワードによる更なる話題判定を行う。つまり、言語モデルによる第1話題判定とキーワードによる第2話題判定を重ねて行う。キーワードによる第2話題判定は、第1話題判定が終わった時点で行うので、当該話題に対するキーワードの設定は比較的にしやすくなる。また、複数回の話題判定を行うことにより、話題判定の精度を更に高めることができる。
本発明によれば、例えば詐欺等の話題を精度よく判定することが可能な話題判定装置および話題判定方法を提供することができる。
第1実施形態にかかる詐欺判定装置100の構成概要図である。 詐欺判定装置100のハードウェア構成図である。 詐欺判定装置100により行われる動作を示すフローチャートである。 第2実施形態にかかる詐欺判定装置200の構成概要図である。 詐欺判定装置200により行われる動作を示すフローチャートである。 第3実施形態にかかる詐欺判定装置300の構成概要図である。 詐欺判定装置300により行われる動作を示すフローチャートである。
以下、添付図面を参照して本発明にかかる話題判定装置および話題判定方法の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
<第1実施形態>
(詐欺判定装置100の構成)
まず、本発明の第1実施形態に係る詐欺判定装置100の構成について、図1および図2を参照しながら説明する。図1は詐欺判定装置100の構成概要図であり、図2はそのハードウェア構成図である。詐欺判定装置100は、例えば電話機(図示せず)を用いた発声である入力音声に対して音声認識を行い、その内容が特定の話題に関連した内容であるか否かを判定する装置である。本実施形態における「特定の話題」とは、例えば「オレオレ詐欺」等の電話機を用いた詐欺の話題である。
図2に示すように、詐欺判定装置100は、物理的には、CPU11、ROM12及びRAM13等の主記憶装置、キーボード及びマウス等の入力デバイス14、ディスプレイ等の出力デバイス15、例えば電話機等の他の装置(図示せず)との間でデータの送受信を行う通信モジュール16、ハードディスク等の補助記憶装置17などを含む通常のコンピュータシステムとして構成される。後述する詐欺判定装置100の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
図1に示すように、詐欺判定装置100は、機能的には、音声入力部110、詐欺データ収集部120(特許請求の範囲の「データ収集手段」に相当)、詐欺言語モデル作成部130(特許請求の範囲の「話題特化言語モデル作成手段」に相当)、詐欺言語モデル保持部140(特許請求の範囲の「言語モデル保持手段」に相当)、音響モデル保持部150(特許請求の範囲の「音響モデル保持手段」に相当)、音声認識部160(特許請求の範囲の「音声認識手段」に相当)、閾値保持部170(特許請求の範囲の「閾値保持手段」に相当)、および判定部180(特許請求の範囲の「判定手段」に相当)を備える。
音声入力部110は入力音声を受信するものであり、物理的には図2に示した通信モジュール16として構成することができる。詐欺判定装置100が電話機と別のものとして構成されている場合には、音声入力部110は当該電話機から有線または無線ネットワーク(図示せず)を通じて入力音声のデータを受信する。詐欺判定装置100が電話機内の一つのモジュールとして組み込まれている場合には、音声入力部110は当該電話機内の所定の通信経路(図示せず)を通じて入力音声のデータを受信する。音声入力部110は入力した音声データを音声認識部160に出力する。
詐欺データ収集部120は、特定の話題、つまり詐欺話題に特化した言語データを収集するものである。詐欺データ収集部120が収集する言語データの例を以下に示す。なお、詐欺データ収集部120は、詐欺の手口に応じ、詐欺内容のデータを随時更新するようにしても良い。
言語データの例:
“学生時代の友人に頼まれ、借金の保証人になってしまった。”
“友人が返済できず、保証人の僕がサラ金から借金をして返すことになった。”
“ご主人が、電車内で痴漢・わいせつ行為をやって捕まっている。示談が成立しなければ裁判になる。”
詐欺言語モデル作成部130は、詐欺データ収集部120が収集したデータを用いて、詐欺の話題に特化した言語モデルである詐欺話題特化言語モデル(特許請求の範囲の「話題特化言語モデル」に相当)を作成するものである。以下、「詐欺話題特化言語モデル」を略して「詐欺LM」と記載、「言語モデル」を略して「LM」と記載する。詐欺LM作成部130が作成する詐欺LMの一例として、例えばuni-gram等の単語の出現確率をモデル化した統計的言語モデルが挙げられる。また、詐欺LM作成部130が作成する詐欺LMの他の一例として、例えばn-gram等の単語間の接続確率をモデル化した統計的言語モデルが挙げられる。統計的言語モデルを作成する手法そのものは、例えば下記の参考文献1に開示されているように公知の技術であるため、ここでは説明を省略する。
参考文献1:音声認識システム、ISBN/ASIN:4-274-13228-5、鹿野清宏他、オーム社
このように作成される詐欺LMは詐欺話題に特化しているので、詐欺に関連した単語の出現確率や単語間の接続確率が高く設定されている。このため、入力音声が詐欺内容であれば、その入力音声に対する音声認識の結果は詐欺LMにおける高いスコアを有する。その反面、詐欺に関連していない単語の出現確率や単語間の接続確率は、詐欺LMにおいて低く設定されている。このため、入力音声が詐欺内容でなければ、その入力音声に対する音声認識の結果は詐欺LMにおける低いスコアを有する。
詐欺LM保持部140は、詐欺LM作成部130が作成した詐欺LMを保持するものである。
音響モデル保持部150は、音声認識を行うための音響モデルを保持するものである。
音声認識部160は、詐欺LM保持部140に保持された詐欺LMおよび音響モデル保持部150に保持された音響モデルを用いて、音声入力部110より入力された入力音声に対する音声認識を行うものである。音声認識部160は音声認識を行った後に、当該結果に対するスコアSを更に計算し、計算後のスコアSを判定部180に出力する。なお、音声認識を行う手法およびスコアを計算する手法そのものは、例えば上記の参考文献1に開示されているように公知の技術であるため、ここでは説明を省略する。音声認識部160は、音声認識の結果を無視し、音声認識の結果である単語列から導出したスコアSのみを、話題判定処理のパラメータとして判定部180に出力しても良い。このことには、音声認識の結果を保持しておく必要がなくなるといったメリットがある。また、音声認識部160は、当該スコアSに対し、発話の長さに基づいた正規化を行うようにしても良い。
閾値保持部170は、判定部180が話題判定処理を行う際に必要とする閾値Xを保持するものである。閾値Xは、入力音声の内容が詐欺の話題に相当するか否かを判定するための判断基準となるものである。
判定部180は、音声認識部160が計算したスコアSを入力し、当該スコアSが閾値保持部170に保持された閾値X以上である場合に、入力音声の内容が詐欺の話題に相当すると判定するものである。
(詐欺判定装置100の動作)
続いて、詐欺判定装置100により行われる動作(特許請求の範囲の「話題判定方法」)について、図3を参照しながら説明する。図3は詐欺判定装置100により行われる動作を示すフローチャートである。なお、以下の説明においては、詐欺データ収集部120および詐欺LM作成部130による詐欺データ収集処理および詐欺LM作成処理(特許請求の範囲の「データ収集ステップ」および「話題特化言語モデル作成ステップ」に相当)は既に行われており、作成された詐欺LMが既に詐欺LM保持部140に保持されているものとする(特許請求の範囲の「言語モデル保持ステップ」に相当)。また、音響モデルにおいても、既に音響モデル保持部150に保持されているものとする(特許請求の範囲の「音響モデル保持ステップ」に相当)。また、閾値保持部170には、入力音声の内容が詐欺の話題に相当するか否かを判定するための判断基準となる閾値Xが既に保持されているものとする(特許請求の範囲の「閾値保持ステップ」に相当)。
最初に、音声入力部110が入力音声を受信し、音声認識部160に出力する。(ステップS11)。
次に、音声認識部160が、詐欺LM保持部140に保持された詐欺LMおよび音響モデル保持部150に保持された音響モデルを用いて、音声入力部110より入力された入力音声に対する音声認識を行う(ステップS12、特許請求の範囲の「音声認識ステップ」に相当)。
次に、音声認識部160が、ステップS12の音声認識の結果に対するスコアSを計算し、計算後のスコアSを判定部180に出力する(ステップS13、特許請求の範囲の「音声認識ステップ」に相当)。
次に、判定部180が、音声認識部160が計算したスコアSを入力し、当該スコアSが閾値保持部170に保持された閾値X以上である場合に(ステップS14:YES)、入力音声の内容が詐欺の話題に相当すると判定する(ステップS15、特許請求の範囲の「判定ステップ」に相当)。一方、当該スコアSが閾値保持部170に保持された閾値X以上でない場合には(ステップS14:NO)、処理はそのまま終了する。つまり、詐欺の話題とは判定しない。
以上の流れにおいて、ステップS11にて例えば以下の入力音声が受信されたとする。
入力音声の例: “会社のお金を使い込んだ。払わないと監査に間に合わない。このままでは横領罪になって捕まってしまう。”
このような入力音声に対してステップS12の音声認識処理を行い、以下のような結果を得たとする。
音声認識の結果の例:“会社のお金を使いこなした。払わないと検査に間に合わない。このままでは奉公になって捕まってしまう。”
このような音声認識処理の結果に対してステップS13のスコア計算処理を行い、そのスコアSが例えば0.8であり、閾値Xが例えば0.7である場合には、ステップS15において上記入力音声は詐欺の話題であると判定される。つまり、本実施形態により、帯域が狭く且つ雑音の影響が大きいことから認識率が特に低い電話音声の場合に、「使い込んだ」、「監査」、「横領」等のキーワードが適切に認識されなかったにもかかわらず、入力音声が詐欺の話題であるか否かが適切に判定される。
以上で説明した本発明の第1実施形態によれば、詐欺という特定の話題に特化したデータより作成した詐欺LMを用いて、入力音声に対する音声認識を行い、その結果に対するスコアSを閾値Xと比較することにより、話題判定を行う。このことにより、キーワードの出現回数に基づいた話題判定手法に比べ、精度の高い話題判定を行うことができる。例えば特定のキーワードが認識されなかった場合でも、適切な話題判定が行われる。
また、話題判定に単語の出現確率を用いることにより、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、精度の高い話題判定を行うことができる。単語の出現確率をモデル化した統計的言語モデルとしては、例えばuni-gramがある。
また、話題判定に単語間の接続確率を用いることにより、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、精度の高い話題判定を行うことができる。単語間の接続確率をモデル化した統計的言語モデルとしては、例えばn-gramがある。
以上のように、本発明によれば、単語の単なる出現回数に基づいた従来の話題判定手法に比べ、その精度が高まる。このため、本発明は、帯域が狭く且つ雑音の影響が大きいことから認識率が低い電話音声の場合に、特に有用である。
<第2実施形態>
続いて、本発明の第2実施形態について説明する。なお、上記説明した第1実施形態と重複する部分については説明を省略し、第1実施形態との相違点を中心に説明する。
図4は、第2実施形態にかかる詐欺判定装置200の構成概要図である。第1実施形態における詐欺判定装置100と比べると、詐欺判定装置200は、一般言語モデル保持部210(特許請求の範囲の「言語モデル保持手段」に相当、以下「一般LM保持部210」と記載)を更に備え、音声認識部160の代わりに第1音声認識部220(特許請求の範囲の「音声認識手段」に相当)および第2音声認識部230(特許請求の範囲の「音声認識手段」に相当)を備え、閾値保持部170を備えない。
一般LM保持部210は、詐欺の話題に特化していない言語モデルである一般LM(特許請求の範囲の「一般話題言語モデル」に相当)を保持するものである。この一般LMは、詐欺判定装置200内で作成されても良く、外部で作成されたものを入力するようにしても良い。言語モデルを作成する手法そのものは、例えば上記の参考文献1に開示されているように公知の技術であるため、ここでは説明を省略する。なお、一般LMは詐欺話題に特化していないので、詐欺に関連した単語の出現確率や単語間の接続確率が詐欺に関連していない単語の出現確率や単語間の接続確率より特別に高い訳ではない。
第1音声認識部220は、詐欺LM保持部140に保持された詐欺LMおよび音響モデル保持部150に保持された音響モデルを用いて、音声入力部110より入力された入力音声に対する音声認識(第1音声認識)を行うものである。音声認識部160は第1音声認識を行った後に、当該結果に対するスコア(第1スコアS1)を更に計算し、計算後の第1スコアS1を判定部180に出力する。
第2音声認識部230は、一般LM保持部210に保持された一般LMおよび音響モデル保持部150に保持された音響モデルを用いて、音声入力部110より入力された入力音声に対する音声認識(第2音声認識)を行うものである。音声認識部160は第2音声認識を行った後に、当該結果に対するスコア(第2スコアS2)を更に計算し、計算後の第2スコアS2を判定部180に出力する。
判定部180は、第1音声認識部220および第2音声認識部230が計算した第1スコアS1および第2スコアS2を入力し、第1スコアS1が第2スコアS2以上である場合に、入力音声の内容が詐欺の話題に相当すると判定する。
(詐欺判定装置200の動作)
続いて、詐欺判定装置200により行われる動作(特許請求の範囲の「話題判定方法」)について、図5を参照しながら説明する。図5は詐欺判定装置200により行われる動作を示すフローチャートである。なお、以下の説明においては、詐欺データ収集部120および詐欺LM作成部130による詐欺データ収集処理および詐欺LM作成処理(特許請求の範囲の「データ収集ステップ」および「話題特化言語モデル作成ステップ」に相当)は既に行われており、作成された詐欺LMが既に詐欺LM保持部140に保持されており、詐欺の話題に特化していない一般LMが既に一般LM保持部210に保持されているものとする(特許請求の範囲の「言語モデル保持ステップ」に相当)。また、音響モデルにおいても、既に音響モデル保持部150に保持されているものとする(特許請求の範囲の「音響モデル保持ステップ」に相当)。
最初に、音声入力部110が入力音声を受信し、第1音声認識部220および第2音声認識部230に出力する。(ステップS21)。
次に、第1音声認識部220が、詐欺LM保持部140に保持された詐欺LMおよび音響モデル保持部150に保持された音響モデルを用いて、音声入力部110より入力された入力音声に対する第1音声認識を行う(ステップS22、特許請求の範囲の「音声認識ステップ」に相当)。
次に、第1音声認識部220が、ステップS22の音声認識の結果に対する第1スコアS1を計算し、計算後の第1スコアS1を判定部180に出力する(ステップS23、特許請求の範囲の「音声認識ステップ」に相当)。
次に、第2音声認識部230が、一般LM保持部210に保持された一般LMおよび音響モデル保持部150に保持された音響モデルを用いて、音声入力部110より入力された入力音声に対する第2音声認識を行う(ステップS24、特許請求の範囲の「音声認識ステップ」に相当)。
次に、第2音声認識部230が、ステップS24の音声認識の結果に対する第2スコアS2を計算し、計算後の第2スコアS2を判定部180に出力する(ステップS25、特許請求の範囲の「音声認識ステップ」に相当)。
次に、判定部180が、第1音声認識部220および第2音声認識部230が計算した第1スコアS1および第2スコアS2を入力し、第1スコアS1が第2スコアS2以上である場合に(ステップS26:YES)、入力音声の内容が詐欺の話題に相当すると判定する(ステップS27、特許請求の範囲の「判定ステップ」に相当)。一方、第1スコアS1が第2スコアS2以上でない場合には(ステップS26:NO)、処理はそのまま終了する。つまり、詐欺の話題とは判定しない。
以上の流れにおいて、ステップS21にて例えば以下の入力音声が受信されたとする。
入力音声の例:“会社のお金を使い込んだ。払わないと監査に間に合わない。このままでは横領罪になって捕まってしまう。”
このような入力音声に対してステップS22の音声認識処理およびステップS24の音声認識処理を行い、以下のような結果を得たとする。
S22の結果例:“カードのお金を使いこなした。払わないと検査に間に合わない。警察局では奉公になって捕まってしまう。”
S24の結果例:“会社のお金を使いこなした。払わないと検査に間に合わない。このままでは奉公になって捕まってしまう。”
このような音声認識処理の結果に対してステップS23およびステップS25のスコア計算処理を行い、第1スコアS1が例えば0.8であり、第2スコアS2が例えば0.4である場合には、ステップS27において上記入力音声は詐欺の話題であると判定される。つまり、本実施形態により、帯域が狭く且つ雑音の影響が大きいことから認識率が特に低い電話音声の場合に、「使い込んだ」、「監査」、「横領」等のキーワードが適切に認識されなかったにもかかわらず、入力音声が詐欺の話題であるか否かが適切に判定される。
以上で説明した本発明の第2実施形態によれば、詐欺という特定の話題に特化したデータより作成した詐欺LMを用いて、入力音声に対する第1音声認識を行い、且つ詐欺という特定の話題に特化していない一般LMを用いて、入力音声に対する第2音声認識を行い、それらの結果に対するそれぞれのスコアを比較することにより、話題判定を行う。このことにより、キーワードの出現回数に基づいた話題判定手法に比べ、精度の高い話題判定を行うことができる。例えば特定のキーワードが認識されなかった場合でも、適切な話題判定が行われる。更に、閾値を別途定める必要がないというメリットがある。
<第3実施形態>
続いて、本発明の第3実施形態について説明する。なお、上記説明した第1実施形態や第2実施形態と重複する部分については説明を省略し、第1実施形態や第2実施形態との相違点を中心に説明する。
図6は、第3実施形態にかかる詐欺判定装置300の構成概要図である。第2実施形態における詐欺判定装置200と比べると、詐欺判定装置300は、キーワード保持部310(特許請求の範囲の「キーワード保持手段」に相当)を更に備える。キーワード保持部310は、例えば詐欺という特定の話題に特化したキーワードを保持するものである。
第3実施形態にかかる詐欺判定装置300の判定部180は、第1音声認識部220および第2音声認識部230が計算した第1スコアS1および第2スコアS2を入力し、第1スコアS1が第2スコアS2以上であることに加え、第1音声認識の結果または第2音声認識の結果に上記キーワードが一定回数以上検知された場合に、入力音声の内容が詐欺の話題に相当すると判定する。
(詐欺判定装置300の動作)
続いて、詐欺判定装置300により行われる動作(特許請求の範囲の「話題判定方法」)について、図7を参照しながら説明する。図7は詐欺判定装置300により行われる動作を示すフローチャートである。なお、以下の説明においては、詐欺データ収集部120および詐欺LM作成部130による詐欺データ収集処理および詐欺LM作成処理(特許請求の範囲の「データ収集ステップ」および「話題特化言語モデル作成ステップ」に相当)は既に行われており、作成された詐欺LMが既に詐欺LM保持部140に保持されており、詐欺の話題に特化していない一般LMが既に一般LM保持部210に保持されているものとする(特許請求の範囲の「言語モデル保持ステップ」に相当)。また、音響モデルにおいても、既に音響モデル保持部150に保持されているものとする(特許請求の範囲の「音響モデル保持ステップ」に相当)。
最初に、上記第2実施形態にて説明したステップS21〜ステップS25の処理が行われる(特許請求の範囲の「音声認識ステップ」に相当)。
次に、判定部180が、第1音声認識部220および第2音声認識部230が計算した第1スコアS1および第2スコアS2を入力し、第1スコアS1が第2スコアS2以上である場合に(ステップS26:YES)、入力音声の内容が詐欺の話題に相当すると暫定的に判定する。これを詐欺話題判定の第1段階という。
次に、判定部180が、第1音声認識の結果または第2音声認識の結果に上記キーワードが一定回数以上検知された場合に(ステップS31:YES)、入力音声の内容が詐欺の話題に相当すると最終的に判定する。これを詐欺話題判定の第2段階という。なお、本実施形態では、上記の一定回数を例えば1回とする。
一方、第1スコアS1が第2スコアS2以上でない場合(ステップS26:NO)、または第1スコアS1が第2スコアS2以上であるがキーワードが発見されない場合には(ステップS31:NO)、処理はそのまま終了する。つまり、詐欺の話題とは判定しない。
以上の流れにおいて、話題判定をステップS26およびステップS31の2段階で行う理由は以下のようである。すなわち、例えば「オレオレ詐欺」等の詐欺事件において、詐欺を犯す者は、まず、背景の説明を行う。例えば、警察を偽って、被害者の家族に刑事事件が発生したことやその進行状況および結果を説明する。この段階を詐欺行為の第1段階とすると、この第1段階を通じて、詐欺を犯す者は、被害者の信頼を得てしまい、いよいよ本題、つまり実際の振込みの話に入る。詐欺を犯す者が本題の話をする段階を詐欺行為の第2段階とすると、この第2段階における発話内容は決まった文句になりやすい。例えば、“***円のお金を口座***に振り込んでくれ!”等である。この第2段階で使用される言葉は、詐欺行為において極めて重要な言葉となることが多く、その種類や数も比較的に少ない。つまり、第1段階における背景説明が何れの内容であるかにかかわらず、第2段階における発話は事前に予想可能な決まった文句になりやすい。したがって、この第2段階におけるキーワードは、第1段階におけるキーワードと異なり、事前に設定することが困難なものとはならない。しかも、第2段階におけるキーワードにより、話題判定の精度が更に高くなる。なお、従来技術においては、本実施形態における第1段階や第2段階との概念を考慮しないままでキーワードによる話題判定をしたため、その精度が高くなかったことが言える。
以上で説明した本発明の第3実施形態によれば、スコア比較によりある程度の話題判定が進んだら、この時点でキーワードによる更なる話題判定を行う。つまり、言語モデルによる第1話題判定とキーワードによる第2話題判定を重ねて行う。キーワードによる第2話題判定は、第1話題判定が終わった時点で行うので、当該話題に対するキーワードの設定は比較的にしやすくなる。また、複数回の話題判定を行うことにより、話題判定の精度を更に高めることができる。
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されないことは言うまでもない。
例えば、上記実施形態においては、「特定の話題」として「詐欺」を一例としたが、これに限られることなく、「詐欺」以外の他の話題として良い。
また、上記実施形態においては、言語モデルの一例としてuni-gramやn-gramを挙げて説明したが、これに限られることなく、uni-gramやn-gram以外の他の言語モデルを本発明の概念に適宜用いても良い。
100,200,300…詐欺判定装置、110…音声入力部、120…詐欺データ収集部、130…詐欺言語モデル作成部(詐欺LM作成部)、140…詐欺言語モデル保持部(詐欺LM保持部)、150…音響モデル保持部、160…音声認識部、170…閾値保持部、180…判定部、210…一般言語モデル保持部(一般LM保持部)、220…第1音声認識部、230…第2音声認識部、310…キーワード保持部。

Claims (9)

  1. 特定の話題に特化したデータを収集するデータ収集手段と、
    前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成手段と、
    前記話題特化言語モデル作成手段が作成した話題特化言語モデルを保持する言語モデル保持手段と、
    音声認識を行うための音響モデルを保持する音響モデル保持手段と、
    前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて、入力音声に対する音声認識を行い、且つ前記音声認識の結果に対するスコアを計算する音声認識手段と、
    前記入力音声の内容が前記特定の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持手段と、
    前記音声認識手段が計算したスコアを入力し、当該スコアが前記閾値保持手段に保持された閾値以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定手段と、
    を備えることを特徴とする話題判定装置。
  2. 前記話題特化言語モデルは、単語の出現確率をモデル化した統計的言語モデルであることを特徴とする請求項1に記載の話題判定装置。
  3. 前記話題特化言語モデルは、単語間の接続確率をモデル化した統計的言語モデルであることを特徴とする請求項1に記載の話題判定装置。
  4. 前記特定の話題は、詐欺の話題であることを特徴とする請求項1〜3何れか1項に記載の話題判定装置。
  5. 前記入力音声は、電話機を用いた発声であることを特徴とする請求項1〜4何れか1項に記載の話題判定装置。
  6. 特定の話題に特化したデータを収集するデータ収集手段と、
    前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成手段と、
    前記話題特化言語モデル作成手段が作成した話題特化言語モデル、および前記特定の話題に特化していない一般話題言語モデルを保持する言語モデル保持手段と、
    音声認識を行うための音響モデルを保持する音響モデル保持手段と、
    前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて入力音声に対する第1音声認識を行い、且つ前記言語モデル保持手段に保持された一般話題言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて前記入力音声に対する第2音声認識を行い、更に前記第1音声認識の結果に対する第1スコアおよび前記第2音声認識の結果に対する第2スコアを計算する音声認識手段と、
    前記音声認識手段が計算した第1スコアおよび第2スコアを入力し、前記第1スコアが前記第2スコア以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定手段と、
    を備えることを特徴とする話題判定装置。
  7. 前記特定の話題に特化したキーワードを保持するキーワード保持手段を更に備え、
    前記判定手段は、前記第1スコアが前記第2スコア以上であることに加え、前記第1音声認識の結果または前記第2音声認識の結果に前記キーワードが一定回数以上検知された場合に、前記入力音声の内容が前記特定の話題に相当すると判定することを特徴とする請求項6に記載の話題判定装置。
  8. データ収集手段が、特定の話題に特化したデータを収集するデータ収集ステップと、
    話題特化言語モデル作成手段が、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成ステップと、
    言語モデル保持手段が、前記話題特化言語モデル作成手段が作成した話題特化言語モデルを保持する言語モデル保持ステップと、
    音響モデル保持手段が、音声認識を行うための音響モデルを保持する音響モデル保持ステップと、
    音声認識手段が、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて、入力音声に対する音声認識を行い、且つ前記音声認識の結果に対するスコアを計算する音声認識ステップと、
    閾値保持手段が、前記入力音声の内容が前記特定の話題に相当するか否かを判定するための判断基準となる閾値を保持する閾値保持ステップと、
    判定手段が、前記音声認識手段が計算したスコアを入力し、当該スコアが前記閾値保持手段に保持された閾値以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定ステップと、
    を備えることを特徴とする話題判定方法。
  9. データ収集手段が、特定の話題に特化したデータを収集するデータ収集ステップと、
    話題特化言語モデル作成手段が、前記データ収集手段が収集したデータを用いて、前記特定の話題に特化した話題特化言語モデルを作成する話題特化言語モデル作成ステップと、
    言語モデル保持手段が、前記話題特化言語モデル作成手段が作成した話題特化言語モデル、および前記特定の話題に特化していない一般話題言語モデルを保持する言語モデル保持ステップと、
    音響モデル保持手段が、音声認識を行うための音響モデルを保持する音響モデル保持ステップと、
    音声認識手段が、前記言語モデル保持手段に保持された話題特化言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて入力音声に対する第1音声認識を行い、且つ前記言語モデル保持手段に保持された一般話題言語モデルおよび前記音響モデル保持手段に保持された音響モデルを用いて前記入力音声に対する第2音声認識を行い、更に前記第1音声認識の結果に対する第1スコアおよび前記第2音声認識の結果に対する第2スコアを計算する音声認識ステップと、
    判定手段が、前記音声認識手段が計算した第1スコアおよび第2スコアを入力し、前記第1スコアが前記第2スコア以上である場合に、前記入力音声の内容が前記特定の話題に相当すると判定する判定ステップと、
    を備えることを特徴とする話題判定方法。
JP2009042344A 2009-02-25 2009-02-25 話題判定装置および話題判定方法 Expired - Fee Related JP5148532B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009042344A JP5148532B2 (ja) 2009-02-25 2009-02-25 話題判定装置および話題判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009042344A JP5148532B2 (ja) 2009-02-25 2009-02-25 話題判定装置および話題判定方法

Publications (2)

Publication Number Publication Date
JP2010197706A true JP2010197706A (ja) 2010-09-09
JP5148532B2 JP5148532B2 (ja) 2013-02-20

Family

ID=42822490

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009042344A Expired - Fee Related JP5148532B2 (ja) 2009-02-25 2009-02-25 話題判定装置および話題判定方法

Country Status (1)

Country Link
JP (1) JP5148532B2 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP2013117683A (ja) * 2011-12-05 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り傾向学習方法、及びプログラム
JP2013167666A (ja) * 2012-02-14 2013-08-29 Nec Corp 音声認識装置、音声認識方法、及びプログラム
JP2015225134A (ja) * 2014-05-26 2015-12-14 日本電信電話株式会社 話題変換検出装置、方法、及びプログラム
WO2020017243A1 (ja) * 2018-07-19 2020-01-23 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007139864A (ja) * 2005-11-15 2007-06-07 Nec Corp 不審会話検出装置、方法及びそれを用いた通信装置
JP2007323107A (ja) * 2006-05-30 2007-12-13 Hitachi Software Eng Co Ltd 振込み詐欺防止システム
WO2008004666A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif, procédé et programme de reconnaissance vocale

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007139864A (ja) * 2005-11-15 2007-06-07 Nec Corp 不審会話検出装置、方法及びそれを用いた通信装置
JP2007323107A (ja) * 2006-05-30 2007-12-13 Hitachi Software Eng Co Ltd 振込み詐欺防止システム
WO2008004666A1 (fr) * 2006-07-07 2008-01-10 Nec Corporation Dispositif, procédé et programme de reconnaissance vocale

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
JP2013117683A (ja) * 2011-12-05 2013-06-13 Nippon Hoso Kyokai <Nhk> 音声認識装置、誤り傾向学習方法、及びプログラム
JP2013167666A (ja) * 2012-02-14 2013-08-29 Nec Corp 音声認識装置、音声認識方法、及びプログラム
JP2015225134A (ja) * 2014-05-26 2015-12-14 日本電信電話株式会社 話題変換検出装置、方法、及びプログラム
WO2020017243A1 (ja) * 2018-07-19 2020-01-23 ソニー株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
JP5148532B2 (ja) 2013-02-20

Similar Documents

Publication Publication Date Title
KR101702829B1 (ko) 인공 신경망 기반 서브-음성 유닛 구별을 이용한 화자 검증 및 식별
US7949536B2 (en) Intelligent speech recognition of incomplete phrases
CN102971725B (zh) 语音输入的字词级纠正
JP4679254B2 (ja) 対話システム、対話方法、及びコンピュータプログラム
US8396713B2 (en) Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
US20070239453A1 (en) Augmenting context-free grammars with back-off grammars for processing out-of-grammar utterances
JP5148532B2 (ja) 話題判定装置および話題判定方法
TW201517018A (zh) 語音辨識方法及其電子裝置
US10360904B2 (en) Methods and apparatus for speech recognition using a garbage model
US20210306457A1 (en) Method and apparatus for behavioral analysis of a conversation
CN113096647B (zh) 语音模型训练方法、装置和电子设备
Mitra et al. Analysis and tuning of a voice assistant system for dysfluent speech
CN108039181A (zh) 一种声音信号的情感信息分析方法和装置
Chen et al. Informative dialect recognition using context-dependent pronunciation modeling
JP2009014888A (ja) 対話処理装置、対話処理方法及びコンピュータ・プログラム
JP6524674B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
Zhang et al. Dialect Recognition Based on Unsupervised Bottleneck Features.
JP4854732B2 (ja) 話者認識システムにおける話者モデル登録装置及び方法、並びにコンピュータプログラム
Levit et al. Don't Count on ASR to Transcribe for You: Breaking Bias with Two Crowds.
Tong et al. Fusion of acoustic and tokenization features for speaker recognition
Chen et al. System and keyword dependent fusion for spoken term detection
JP4408665B2 (ja) 音声認識用発話データ収集装置、音声認識用発話データ収集方法、及びコンピュータプログラム
JP6260138B2 (ja) コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム
Niu et al. Separation guided speaker diarization in realistic mismatched conditions
JP2016191739A (ja) 発音誤り検出装置、方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110829

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120823

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121026

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121128

R150 Certificate of patent or registration of utility model

Ref document number: 5148532

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees