JP5042194B2 - 話者テンプレートを更新する装置及び方法 - Google Patents
話者テンプレートを更新する装置及び方法 Download PDFInfo
- Publication number
- JP5042194B2 JP5042194B2 JP2008275807A JP2008275807A JP5042194B2 JP 5042194 B2 JP5042194 B2 JP 5042194B2 JP 2008275807 A JP2008275807 A JP 2008275807A JP 2008275807 A JP2008275807 A JP 2008275807A JP 5042194 B2 JP5042194 B2 JP 5042194B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- voice
- unit
- template
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 27
- 238000000605 extraction Methods 0.000 claims description 39
- 239000000284 extract Substances 0.000 claims description 14
- 230000004044 response Effects 0.000 description 37
- 239000003795 chemical substances by application Substances 0.000 description 33
- 238000012790 confirmation Methods 0.000 description 18
- 238000012546 transfer Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Telephonic Communication Services (AREA)
Description
通常、この話者テンプレートは、話者となるユーザがシステムの使用を開始する時点等で登録される。ところが、その後にユーザの発話様式が変わることも十分に考えられ、そうなると、同じ話者テンプレートを用いたのでは、話者認識率が下がってしまう。このような場合、話者テンプレートを再登録することも考えられるが、これはユーザに余計な作業を強いることになり、好ましくない。
特許文献1では、テンプレートと認識データ間の距離を、複数の話者全体に対するVQコードブックと認識データとのVQ歪みを引いて補正しており、このように補正した値は発話様式や経時変化等によるバラツキが小さくなるので、補正した値を話者類似尺度に用いて話者認識を行っている。
しかしながら、特許文献1では、実際の話者認識時にテンプレートと認識データ間の距離を補正することで、発話様式や経時変化等によるバラツキを小さくしているので、話者認識の処理を行う都度、同様の補正による処理時間がかかるという問題点があった。
本発明の他の目的は、話者認識の精度を向上するために更新すべき話者テンプレートの検索を高速化することにある。
更にまた、この装置は、特定の話者以外の他の話者が発した音声メッセージを特定の話者に聴取させるに当たって、特定の話者テンプレートを用いて特定の話者を認証する認証部を更に備えた、ものであってよい。
図1は、このようなコンピュータシステムの全体構成例を示した図である。
図示するように、このコンピュータシステムは、電話機10a〜10fと、公衆網20と、PBX(Private Branch eXchange)30と、IVR(Interactive Voice Response)40と、メッセージ管理装置50と、声紋認証装置60とを含んでいる。
PBX30は、構内交換機である。即ち、企業等において、内線電話機である電話機10どうしの接続や、公衆網20への接続を行う。また、電話機10から入力された音声をデジタル化した音声データからなるメッセージとしてIVR40に出力する。
メッセージ管理装置50は、電話機10から入力されたメッセージをメッセージボックスに登録して管理し、管理しているメッセージを電話機10で再生するために読み出して出力する。
声紋認証装置60は、メッセージ管理装置50で管理されるメッセージを電話機10で再生する場合に、その電話機10でのメッセージの聴取者が正当であるかをその聴取者の声紋を用いて認証する。
図2は、IVR40、メッセージ管理装置50、声紋認証装置60の機能構成例を示したブロック図である。
まず、IVR40の機能構成について説明する。
図示するように、IVR40は、音声応答部41と、音声認識部42と、ダイヤルアウト部43と、会話記憶部44とを備える。
音声認識部42は、音声応答部41から入力されたメッセージをリアルタイムで認識し、データ化する。本実施の形態では、音声メッセージを音声認識する音声認識部の一例として、音声認識部42を設けている。
会話記憶部44は、電話回線を介して二者間で交換される会話の音声データ(以下、「会話データ」という)をPBX30から取得して回線別に記憶する。例えば、ユーザAとユーザBが電話で話した場合であれば、ユーザAが電話をかけてきた回線の回線IDに関連付けてユーザAの会話データを記憶し、ユーザBが電話をかけてきた回線の回線IDに関連付けてユーザBの会話データを記憶する。ここで、回線IDは、回線を一意に識別する識別情報である。
図示するように、メッセージ管理装置50は、メッセージ記憶部51と、データベース(DB)管理部55と、言語解析部57とを備える。
DB管理部55は、メッセージ記憶部51を管理する。例えば、IVR40から入力されたメッセージ等をメッセージ記憶部51に記憶し、未開封のメッセージを代理人に確認させるために読み出す。また、メッセージの確認を依頼する代理人を決定する。本実施の形態では、発信者に対して予め定められ、かつ、キーワードに対して予め定められたユーザを、代理人として決定する決定部の一例として、DB管理部55を設けている。
言語解析部57は、IVR40の音声認識部42による音声認識の結果として得られたデータを解析して、メッセージの話者及び案件を特定する。本実施の形態では、電子メッセージの発信者を特定する特定部の一例として、また、電子メッセージからその主題を表すキーワードを抽出する抽出部の一例として、言語解析部57を設けている。
図示するように、声紋認証装置60は、テンプレート情報記憶部61と、履歴情報記憶部62と、キーワード情報記憶部63と、データベース(DB)管理部65と、音声解析部66と、言語解析部67とを備える。
履歴情報記憶部62は、内線番号と、過去にその内線番号からメッセージが届けられたメッセージボックスのボックスIDとを対応付けた履歴情報を記憶する。
キーワード情報記憶部63は、キーワードと、そのキーワードに関連する会話を行うことが想定されるユーザのメッセージボックスのボックスIDとを対応付けたキーワード情報を記憶する。
言語解析部67は、IVR40の音声認識部42による音声認識の結果として得られたデータを解析して、キーワードを抽出する。本実施の形態では、キーワードを抽出するキーワード抽出部の一例として、言語解析部67を設けている。
図3は、このようなメッセージ情報の一例を示した図である。
図示するように、メッセージ情報は、ボックスIDとメッセージと転送希望の有無と待機時間とユーザIDと開封状況とを対応付けたものとなっている。
ボックスIDは、メッセージボックスを一意に識別する識別情報であり、図では、「BOX#」と表記している。また、転送希望の有無としては「YES」が設定されているが、これは代理人による確認を希望することを意味する。代理人による確認を希望しない場合には「NO」が設定される。更に、「待機時間」としては、メッセージが未開封だった場合に代理人に確認を依頼するまでの時間が分を単位として設定される。例えば、図のように「120」が設定されている場合、メッセージが登録されてから120分経過しても未開封だった場合に、そのメッセージの確認が代理人に依頼される。また、ユーザIDは、ユーザを一意に識別する識別情報であるが、ここでは、メッセージの確認を依頼する代理人を特定する情報として設定されている。図では、ユーザIDとして「U1」が設定されており、メッセージの確認は、ユーザID「U1」を有する代理人に依頼されることになる。更に、開封状況としては「CLOSE」が設定されているが、これはメッセージが未開封であることを意味する。メッセージが開封されると開封状況は「OPEN」に書き換えられる。
図4は、このようなテンプレート情報の一例を示した図である。
図示するように、テンプレート情報は、ユーザIDとボックスIDと名前とテンプレートとを対応付けたものになっている。
既述の通り、ユーザIDは、ユーザを一意に識別する識別情報であり、ボックスIDは、メッセージボックスを一意に識別する識別情報である。但し、全てのユーザがメッセージボックスを持っているとは限らないので、メッセージボックスを持たないユーザに対してはボックスIDを登録しなくてもよい。名前としては、対応するユーザIDを有するユーザの名前が設定される。テンプレートは、対応するユーザIDを有するユーザの声の特徴が認証のための参照データとして登録されたものである。図では、テンプレートを「T1」、「T2」、「T3」といった単純な記号で示しているが、実際は、多くのパラメータ値の集合が設定される。或いは、このようなパラメータ値の集合が記憶された記憶領域に対するポインタが設定されてもよい。
図5は、このような履歴情報の一例を示した図である。
図示するように、履歴情報は、内線番号とボックスIDとを対応付けたものになっている。
内線番号は、内線を介してPBX30に接続された電話機10に割り振られ、例えば、企業等の組織内での電話番号として用いられる番号である。また、ボックスIDは、既述の通り、メッセージボックスを一意に識別する識別情報であるが、ここでは、対応する内線番号の電話機10から過去にメッセージが送られたことのあるメッセージボックスのボックスIDが履歴として設定されている。例えば、図では、内線番号「23」の電話機10から、ボックスID「12」、「32」、「48」のメッセージボックスにメッセージが送られたことがあることが示されている。但し、古い履歴は意味がないことも多いので、ある程度以上前の履歴は保持しないようにしてもよい。尚、ここでは、管理のし易さから、内線を介してPBX30に接続された電話機10の履歴を保持するようにしたが、公衆網20を介してPBX30に接続された電話機10の履歴についても、それがPBX30等に残っていれば同様に保持することは可能である。
図6は、このようなキーワード情報の一例を示した図である。
図示するように、キーワード情報は、キーワードとボックスIDとを対応付けたものになっている。
キーワードとしては、電話機10を用いた会話に出現し得る語句が設定される。このような語句としては、会話を行っているユーザをある程度類推できるようなものが望ましい。また、ボックスIDは、既述の通り、メッセージボックスを一意に識別する識別情報であるが、ここでは、対応するキーワードを含む会話を行うことが想定されるユーザのメッセージボックスのボックスIDが設定されている。例えば、図では、ボックスID「12」、「32」、「48」のメッセージボックスを有するユーザが、キーワード「XXXプロジェクト」を会話で用いる可能性があること、及び、ボックスID「1」、「5」、「9」、「24」のメッセージボックスを有するユーザが、キーワード「営業一課」を会話で用いる可能性があることが示されている。
図7は、このときのIVR40及びメッセージ管理装置50の動作例を示したフローチャートである。
IVR40では、まず、音声応答部41が、メッセージを受け付ける(ステップ401)。具体的には、メッセージの入力を促す機械音声を出力し、これに応じてユーザがメッセージを発話すると、そのメッセージを受け付ける。例えば、ユーザが「今日のミーティングは明日に変更です。」とのメッセージを発話すると、そのメッセージを受け付ける。そして、このメッセージは、メッセージ管理装置50のDB管理部55へ出力されると共に、音声認識部42へも出力される。
次に、音声応答部41は、転送希望の有無を受け付ける(ステップ402)。具体的には、転送希望の有無の入力を促す機械音声を出力し、これに応じてユーザが転送を希望するかどうかをダイヤル操作で入力すると、入力された情報を受け付ける。例えば、音声応答部41は、「メッセージの未開封時、ユーザ指定代理人への転送を希望する場合は『1』を、切断する場合は『2』を押して下さい。」という機械音声を出力し、ユーザが「1」を押すと、そのダイヤル操作の情報を受け付ける。そして、この転送希望の有無は、メッセージ管理装置50のDB管理部55へ出力される。
その結果、転送を希望する旨の入力があったと判定すると、音声応答部41は、待機時間を受け付ける(ステップ404)。具体的には、待機時間の入力を促す機械音声を出力し、これに応じてユーザが待機時間をダイヤル操作で入力すると、入力された待機時間を受け付ける。例えば、音声応答部41は、「未開封の場合に代理人に確認を依頼するまでの待機時間を分で入力して下さい。」という機械音声を出力し、ユーザが「1」、「2」、「0」と押すと、そのダイヤル操作の情報を受け付ける。そして、この待機時間は、メッセージ管理装置50のDB管理部55へ出力される。
ここで、音声認識の結果を解析して話者及び案件を特定する方法としては、例えば、次のような方法がある。
まず、話者を特定する方法としては、話者の前後に発言される可能性の高い語句を手がかりとする方法がある。例えば、「○○会社の」、「○○部の」等が来れば、その直後を話者と判定し、「こんにちは」、「お世話になります」等が来れば、その直前又は直後を話者と判定する、といった方法である。
また、案件を特定する方法としては、案件を表すキーワードを手がかりとする方法がある。例えば、予めこのようなキーワードを登録しておき、登録されたキーワードのうち最も出現回数の多かったものが表す案件を、メッセージが表す案件と判定する、といった方法である。
図8は、このときのIVR40、メッセージ管理装置50、声紋認証装置60の動作例を示したフローチャートである。
メッセージ管理装置50では、まず、DB管理部55が、代理人による確認を希望し、確認依頼時刻が到来し、未開封のメッセージが登録されたメッセージボックスを特定する(ステップ421)。具体的には、メッセージ記憶部51に記憶されたメッセージ情報を定期的に監視し、転送希望が「YES」で、メッセージが登録された時刻に待機時間を加えた時刻よりも現在時刻が後で、開封状況が「CLOSE」のままになっているメッセージ情報がないかを判断する。そして、そのようなメッセージ情報があれば、そのメッセージ情報からボックスIDを取り出す。
そして、そのユーザIDと、そのユーザIDに対して事前に設定されている電話番号とをIVR40のダイヤルアウト部43に伝え、その電話番号に電話がかかるようにダイヤルアウト部43に指示する(ステップ423)。その際、ダイヤルアウト部43は、ユーザIDを音声応答部41に伝えておく。
次に、DB管理部65は、代理人の声について声紋認証を行う(ステップ426)。具体的には、テンプレート情報記憶部61に記憶されたテンプレート情報において、音声応答部41から入力されたユーザIDに対応付けられているテンプレートと、音声解析部66から入力された音声の特徴とを比較する。
その結果、メッセージの確認を希望していると判定した場合、DB管理部55は、ステップ421で特定したメッセージボックスに登録されているメッセージを取り出してIVR40の音声応答部41に渡し、音声応答部41がメッセージを出力する(ステップ430)。また、このとき、DB管理部55は、メッセージ記憶部51においてその取り出したメッセージに対応する開封状況を「CLOSE」から「OPEN」に書き換える(ステップ431)。
ところで、本実施の形態では、このような代理人の認証に用いるテンプレートを、代理人となり得るユーザが電話機10を用いて会話を行っている間に自動的に更新する。
図9は、このときのIVR40及び声紋認証装置60の動作例を示したフローチャートである。尚、この動作例に先立ち、IVR40の会話記憶部44には、電話機10の回線ごとに、会話データが記憶されているものとする。
A:Bさんですか?営業のAです。
B:Aさん、お久しぶりです。
A:XXXプロジェクトの進捗はどうなっていますか?
B:順調ですよ。近況をまとめたXXXプロジェクトの資料を送りましょうか?
A:そうしていただけますか?よろしくお願いします。
B:了解しました。
また、音声応答部41も、音声応答部41が読み出したものと同じ会話単位を会話記憶部44から読み出して声紋認証装置60のDB管理部65に出力し、音声解析部66がこの会話単位を受け取って音声の特徴を学習する(ステップ442)。
この場合、DB管理部65は、履歴情報記憶部62において回線#2に対応する内線番号に対応付けられたボックスIDのメッセージボックスを対象として、テンプレート情報記憶部61からテンプレートを検索する(ステップ444)。具体的には、回線#2に対応する内線番号に基づいて履歴情報記憶部62を検索することにより、過去にその内線番号からメッセージが送られたことのあるメッセージボックスのボックスIDを読み出す。そして、テンプレート情報記憶部61に記憶されたテンプレートのうち、このボックスIDに対応するテンプレートを検索対象のテンプレートとし、この検索対象のテンプレートから更新対象のテンプレートを検索する。尚、この場合のテンプレートの検索は、検索対象のテンプレートのパラメータ値と、音声解析部66が解析して得た音声の音響ベクトルとの間の距離(類似度)を、DP(Dynamic Programming)法等で求め、その距離が所定の閾値以上で最大となる場合に、その検索対象のテンプレート選択することによって行えばよい。
その結果、検索が成功した場合、DB管理部65は、検索によって見つかったテンプレートに対応するボックスIDを回線#1に紐付ける(ステップ446)。また、検索によって見つかったテンプレートを、音声解析部66が解析して得た音声の音響ベクトルにおけるパラメータ値に基づいて更新する(ステップ447)。尚、この場合のテンプレートの更新は、最新の会話単位から得られたパラメータ値を用いて作成された最新のテンプレートで既存のテンプレートを置き換えるものでもよいし、そのような最新のテンプレートを既存のテンプレートに追加するものでもよい。
その結果、検索が成功した場合、DB管理部65は、検索によって見つかったテンプレートに対応するボックスIDを回線#1に紐付ける(ステップ446)。また、検索によって見つかったテンプレートを、音声解析部66が解析して得た音声の音響ベクトルにおけるパラメータ値に基づいて更新する(ステップ447)。尚、この場合のテンプレートの更新は、最新の会話単位から得られたパラメータ値を用いて作成された最新のテンプレートで既存のテンプレートを置き換えるものでもよいし、そのような最新のテンプレートを既存のテンプレートに追加するものでもよい。
ここで、テンポラリの記憶領域にテンプレートが記憶されていなければ、処理は終了するが、テンポラリの記憶領域にテンプレートが記憶されていれば、DB管理部65は、全てのボックスIDのメッセージボックスを対象として、テンプレート情報記憶部61からテンプレートを検索する(ステップ454)。具体的には、テンプレート情報記憶部61に記憶された全てのテンプレートを検索対象のテンプレートとし、この検索対象のテンプレートから更新対象のテンプレートを検索する。尚、この場合のテンプレートの検索は、検索対象のテンプレートのパラメータ値と、音声解析部66が解析して得た音声の音響ベクトルとの間の距離(類似度)を、DP法等で求め、その距離が所定の閾値以上で最大となる場合に、その検索対象のテンプレート選択することによって行えばよい。
その結果、検索が成功した場合、DB管理部65は、検索によって見つかったテンプレートに対応するボックスIDを回線#1に紐付ける(ステップ456)。また、検索によって見つかったテンプレートを、音声解析部66が解析して得た音声の音響ベクトルにおけるパラメータ値に基づいて更新する(ステップ457)。尚、この場合のテンプレートの更新は、最新の会話単位から得られたパラメータ値を用いて作成された最新のテンプレートで既存のテンプレートを置き換えるものでもよいし、そのような最新のテンプレートを既存のテンプレートに追加するものでもよい。
一方、検索が成功しなかった場合、DB管理部65は、テンプレート情報記憶部61に新規にエントリを作成し、テンポラリの記憶領域に記憶されていたテンプレートをこのエントリに登録する(ステップ458)。
尚、本実施の形態において、声紋認証装置60は、1つのIVR40に接続されるものとしたが、複数のIVR40に接続され、複数のIVR40で1つの声紋認証装置60を共有するようにしてもよい。或いは、テンプレート情報記憶部61のみを共有個人情報データベースとして、複数の声紋認証装置60の間で共有するようにしてもよい。
また、会話を音声認識した結果を言語解析することにより、頻繁に出てくる言葉を、自動的にキーワード情報記憶部63にキーワードとして設定するようにしてもよい。
また、本実施の形態では、更新対象のテンプレートを検索する際の検索範囲を履歴やキーワードを用いて絞り込むようにした。これにより、データベース内の膨大な数のテンプレートにアクセスすることを避け、検索を高速化できるようになった。
更に、本実施の形態では、話者とテンプレートとを対応付けたデータベースを共有可能とした。これにより、どの電話機10からも全てのテンプレートの更新が常時可能となった。
Claims (8)
- 話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する装置であって、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、
第1の話者と第2の話者との間で当該第1の話者が使用する第1の電話回線及び当該第2の話者が使用する第2の電話回線を介して会話が行われた際に当該第1の電話回線から得られた、当該第1の話者が発する音声の特徴を抽出する特徴抽出部と、
前記記憶部に記憶された前記複数の話者テンプレートの中から、前記第2の電話回線から過去に音声メッセージが送られたことのあるメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、
前記決定部により決定された前記複数の候補テンプレートの中から、前記特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、
前記選択部により選択された前記特定の話者テンプレートを、前記特徴抽出部により抽出された音声の特徴に基づいて、前記会話が行われている間に更新する更新部と
を備えた、装置。 - 前記第1の電話回線から得られた音声を音声認識する音声認識部と、
前記音声認識部による音声認識の結果に予め定められたキーワードが出現すれば当該キーワードを抽出するキーワード抽出部と
を更に備え、
前記決定部は、前記第2の電話回線から過去に音声メッセージが送られたことのあるメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定できない場合に、前記キーワード抽出部により抽出された前記キーワードに対応付けられたメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する、請求項1の装置。 - 前記第1の話者が有するメッセージボックスに送られた音声メッセージを当該第1の話者が再生する際に、前記特定の話者テンプレートを用いて当該第1の話者を認証する認証部を更に備えた、請求項1の装置。
- 話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する装置であって、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、
第1の話者と第2の話者との間で当該第1の話者が使用する第1の電話回線及び当該第2の話者が使用する第2の電話回線を介して会話が行われた際に当該第1の電話回線から得られた、当該第1の話者が発する音声の特徴を抽出する特徴抽出部と、
前記第1の電話回線から得られた音声を音声認識する音声認識部と、
前記音声認識部による音声認識の結果に予め定められたキーワードが出現すれば当該キーワードを抽出するキーワード抽出部と、
前記記憶部に記憶された前記複数の話者テンプレートの中から、前記キーワード抽出部により抽出された前記キーワードに対応付けられたメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、
前記決定部により決定された前記複数の候補テンプレートの中から、前記特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、
前記選択部により選択された前記特定の話者テンプレートを、前記特徴抽出部により抽出された音声の特徴に基づいて、前記会話が行われている間に更新する更新部と
を備えた、装置。 - 話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する方法であって、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶するステップと、
第1の話者と第2の話者との間で当該第1の話者が使用する第1の電話回線及び当該第2の話者が使用する第2の電話回線を介して会話が行われた際に当該第1の電話回線から得られた、当該第1の話者が発する音声の特徴を抽出するステップと、
記憶された前記複数の話者テンプレートの中から、前記第2の電話回線から過去に音声メッセージが送られたことのあるメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定するステップと、
決定された前記複数の候補テンプレートの中から、抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択するステップと、
選択された前記特定の話者テンプレートを、抽出された音声の特徴に基づいて、前記会話が行われている間に更新するステップと
を含む、方法。 - 話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する方法であって、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶するステップと、
第1の話者と第2の話者との間で当該第1の話者が使用する第1の電話回線及び当該第2の話者が使用する第2の電話回線を介して会話が行われた際に当該第1の電話回線から得られた、当該第1の話者が発する音声の特徴を抽出するステップと、
前記第1の電話回線から得られた音声を音声認識するステップと、
前記音声認識の結果に予め定められたキーワードが出現すれば当該キーワードを抽出するステップと、
記憶された前記複数の話者テンプレートの中から、抽出された前記キーワードに対応付けられたメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定するステップと、
決定された前記複数の候補テンプレートの中から、抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択するステップと、
選択された前記特定の話者テンプレートを、抽出された音声の特徴に基づいて、前記会話が行われている間に更新するステップと
を含む、方法。 - 話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する装置としてコンピュータを機能させるプログラムであって、
前記コンピュータを、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、
第1の話者と第2の話者との間で当該第1の話者が使用する第1の電話回線及び当該第2の話者が使用する第2の電話回線を介して会話が行われた際に当該第1の電話回線から得られた、当該第1の話者が発する音声の特徴を抽出する特徴抽出部と、
前記記憶部に記憶された前記複数の話者テンプレートの中から、前記第2の電話回線から過去に音声メッセージが送られたことのあるメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、
前記決定部により決定された前記複数の候補テンプレートの中から、前記特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、
前記選択部により選択された前記特定の話者テンプレートを、前記特徴抽出部により抽出された音声の特徴に基づいて、前記会話が行われている間に更新する更新部と
して機能させる、プログラム。 - 話者を当該話者が発する音声に基づいて認識するための話者テンプレートを更新する装置としてコンピュータを機能させるプログラムであって、
前記コンピュータを、
複数の話者の各々が発する音声の特徴を示す複数の話者テンプレートを記憶する記憶部と、
第1の話者と第2の話者との間で当該第1の話者が使用する第1の電話回線及び当該第2の話者が使用する第2の電話回線を介して会話が行われた際に当該第1の電話回線から得られた、当該第1の話者が発する音声の特徴を抽出する特徴抽出部と、
前記第1の電話回線から得られた音声を音声認識する音声認識部と、
前記音声認識部による音声認識の結果に予め定められたキーワードが出現すれば当該キーワードを抽出するキーワード抽出部と、
前記記憶部に記憶された前記複数の話者テンプレートの中から、前記キーワード抽出部により抽出された前記キーワードに対応付けられたメッセージボックスを有する複数の話者の各々が発する音声の特徴を示す複数の候補テンプレートを決定する決定部と、
前記決定部により決定された前記複数の候補テンプレートの中から、前記特徴抽出部により抽出された音声の特徴に対して一定の基準以上の類似度を有する音声の特徴を示す特定の話者テンプレートを選択する選択部と、
前記選択部により選択された前記特定の話者テンプレートを、前記特徴抽出部により抽出された音声の特徴に基づいて、前記会話が行われている間に更新する更新部と
して機能させる、プログラム。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008275807A JP5042194B2 (ja) | 2008-10-27 | 2008-10-27 | 話者テンプレートを更新する装置及び方法 |
US12/606,206 US8775178B2 (en) | 2008-10-27 | 2009-10-27 | Updating a voice template |
US14/287,771 US10621974B2 (en) | 2008-10-27 | 2014-05-27 | Updating a voice template |
US16/833,676 US11335330B2 (en) | 2008-10-27 | 2020-03-30 | Updating a voice template |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008275807A JP5042194B2 (ja) | 2008-10-27 | 2008-10-27 | 話者テンプレートを更新する装置及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010102254A JP2010102254A (ja) | 2010-05-06 |
JP5042194B2 true JP5042194B2 (ja) | 2012-10-03 |
Family
ID=42118354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008275807A Active JP5042194B2 (ja) | 2008-10-27 | 2008-10-27 | 話者テンプレートを更新する装置及び方法 |
Country Status (2)
Country | Link |
---|---|
US (3) | US8775178B2 (ja) |
JP (1) | JP5042194B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10621974B2 (en) | 2008-10-27 | 2020-04-14 | International Business Machines Corporation | Updating a voice template |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2540995T3 (es) * | 2010-08-24 | 2015-07-15 | Veovox Sa | Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido |
US9800721B2 (en) | 2010-09-07 | 2017-10-24 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
CN103680495B (zh) * | 2012-09-26 | 2017-05-03 | 中国移动通信集团公司 | 语音识别模型训练方法和装置及语音识别终端 |
US9514753B2 (en) * | 2013-11-04 | 2016-12-06 | Google Inc. | Speaker identification using hash-based indexing |
US9508343B2 (en) * | 2014-05-27 | 2016-11-29 | International Business Machines Corporation | Voice focus enabled by predetermined triggers |
US20160094491A1 (en) * | 2014-09-30 | 2016-03-31 | Genesys Telecommunications Laboratories, Inc. | Pattern-controlled automated messaging system |
US9922048B1 (en) | 2014-12-01 | 2018-03-20 | Securus Technologies, Inc. | Automated background check via facial recognition |
CN106782564B (zh) * | 2016-11-18 | 2018-09-11 | 百度在线网络技术(北京)有限公司 | 用于处理语音数据的方法和装置 |
JP6494828B1 (ja) * | 2018-03-07 | 2019-04-03 | ヤフー株式会社 | 管理装置、管理方法および管理プログラム |
US10878825B2 (en) * | 2018-03-21 | 2020-12-29 | Cirrus Logic, Inc. | Biometric processes |
CN108766428A (zh) * | 2018-06-01 | 2018-11-06 | 安徽江淮汽车集团股份有限公司 | 一种语音播报控制方法及系统 |
US11004454B1 (en) * | 2018-11-06 | 2021-05-11 | Amazon Technologies, Inc. | Voice profile updating |
US11200884B1 (en) * | 2018-11-06 | 2021-12-14 | Amazon Technologies, Inc. | Voice profile updating |
US11295726B2 (en) * | 2019-04-08 | 2022-04-05 | International Business Machines Corporation | Synthetic narrowband data generation for narrowband automatic speech recognition systems |
CN114333767A (zh) * | 2020-09-29 | 2022-04-12 | 华为技术有限公司 | 发声者语音抽取方法、装置、存储介质及电子设备 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1992017975A1 (en) * | 1991-03-26 | 1992-10-15 | Litle & Co. | Confirming identity of telephone caller |
AU5359498A (en) * | 1996-11-22 | 1998-06-10 | T-Netix, Inc. | Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation |
EP0896712A4 (en) * | 1997-01-31 | 2000-01-26 | T Netix Inc | SYSTEM AND METHOD FOR DISCOVERING RECORDED LANGUAGE |
EP0943139B1 (en) * | 1997-10-07 | 2003-12-03 | Koninklijke Philips Electronics N.V. | A method and device for activating a voice-controlled function in a multi-station network through using both speaker-dependent and speaker-independent speech recognition |
JP3699608B2 (ja) * | 1999-04-01 | 2005-09-28 | 富士通株式会社 | 話者照合装置及び方法 |
US20020161657A1 (en) * | 2000-12-14 | 2002-10-31 | Kojac Mark A. | System for rapid identification of vehicle occupants for the purpose of facilitating mobile sales marketing, communication and safety |
US6853716B1 (en) * | 2001-04-16 | 2005-02-08 | Cisco Technology, Inc. | System and method for identifying a participant during a conference call |
US8000269B1 (en) * | 2001-07-13 | 2011-08-16 | Securus Technologies, Inc. | Call processing with voice over internet protocol transmission |
US7240007B2 (en) * | 2001-12-13 | 2007-07-03 | Matsushita Electric Industrial Co., Ltd. | Speaker authentication by fusion of voiceprint match attempt results with additional information |
US20040010698A1 (en) * | 2002-05-30 | 2004-01-15 | Rolfe Andrew R. | Digital certificate system incorporating voice biometric processing |
US20030233231A1 (en) * | 2002-06-13 | 2003-12-18 | International Business Machines Corporation | Apparatus and method for managing privacy using voice recognition and caller identification |
US7333798B2 (en) * | 2002-08-08 | 2008-02-19 | Value Added Communications, Inc. | Telecommunication call management and monitoring system |
US7299177B2 (en) * | 2003-05-30 | 2007-11-20 | American Express Travel Related Services Company, Inc. | Speaker recognition in a multi-speaker environment and comparison of several voice prints to many |
JP2005045596A (ja) * | 2003-07-23 | 2005-02-17 | Nec Corp | 話者通話履歴呈示システム、話者通話履歴呈示方法、ip電話機、ip電話方法及びプログラム |
US7561680B1 (en) * | 2003-08-13 | 2009-07-14 | Evercom Systems, Inc. | System and method for called party controlled message delivery |
US20050069095A1 (en) * | 2003-09-25 | 2005-03-31 | International Business Machines Corporation | Search capabilities for voicemail messages |
US20050125226A1 (en) * | 2003-10-29 | 2005-06-09 | Paul Magee | Voice recognition system and method |
US7630905B1 (en) * | 2004-01-07 | 2009-12-08 | Ralph Reese | Call campaign methodologies |
US7231019B2 (en) * | 2004-02-12 | 2007-06-12 | Microsoft Corporation | Automatic identification of telephone callers based on voice characteristics |
US20050243975A1 (en) * | 2004-04-28 | 2005-11-03 | International Business Machines Corporation | Method and system of determining unsolicited callers |
US20060085189A1 (en) * | 2004-10-15 | 2006-04-20 | Derek Dalrymple | Method and apparatus for server centric speaker authentication |
JP3774225B2 (ja) | 2004-10-15 | 2006-05-10 | 独立行政法人科学技術振興機構 | 三次元計測センサ |
JP2006215651A (ja) * | 2005-02-01 | 2006-08-17 | Telemidic Ltd | 話者特定装置 |
JP4237713B2 (ja) * | 2005-02-07 | 2009-03-11 | 東芝テック株式会社 | 音声処理装置 |
US8725514B2 (en) * | 2005-02-22 | 2014-05-13 | Nuance Communications, Inc. | Verifying a user using speaker verification and a multimodal web-based interface |
US7386105B2 (en) * | 2005-05-27 | 2008-06-10 | Nice Systems Ltd | Method and apparatus for fraud detection |
US9300790B2 (en) * | 2005-06-24 | 2016-03-29 | Securus Technologies, Inc. | Multi-party conversation analyzer and logger |
US20070041517A1 (en) * | 2005-06-30 | 2007-02-22 | Pika Technologies Inc. | Call transfer detection method using voice identification techniques |
JP4755689B2 (ja) * | 2005-07-27 | 2011-08-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 正規受信者への安全なファイル配信のためのシステムおよび方法 |
CN1905445B (zh) * | 2005-07-27 | 2012-02-15 | 国际商业机器公司 | 使用可移动的语音标识卡的语音认证系统及语音认证方法 |
US8234494B1 (en) * | 2005-12-21 | 2012-07-31 | At&T Intellectual Property Ii, L.P. | Speaker-verification digital signatures |
US20070219801A1 (en) * | 2006-03-14 | 2007-09-20 | Prabha Sundaram | System, method and computer program product for updating a biometric model based on changes in a biometric feature of a user |
US7720681B2 (en) * | 2006-03-23 | 2010-05-18 | Microsoft Corporation | Digital voice profiles |
US8214208B2 (en) * | 2006-09-28 | 2012-07-03 | Reqall, Inc. | Method and system for sharing portable voice profiles |
US7415409B2 (en) * | 2006-12-01 | 2008-08-19 | Coveo Solutions Inc. | Method to train the language model of a speech recognition system to convert and index voicemails on a search engine |
JP2008250089A (ja) * | 2007-03-30 | 2008-10-16 | Pioneer Electronic Corp | 話者特定装置及び音声認識装置並びに話者特定用プログラム及び音声認識用プログラム |
US8219404B2 (en) * | 2007-08-09 | 2012-07-10 | Nice Systems, Ltd. | Method and apparatus for recognizing a speaker in lawful interception systems |
US7995732B2 (en) * | 2007-10-04 | 2011-08-09 | At&T Intellectual Property I, Lp | Managing audio in a multi-source audio environment |
US20090210229A1 (en) * | 2008-02-18 | 2009-08-20 | At&T Knowledge Ventures, L.P. | Processing Received Voice Messages |
US8332223B2 (en) * | 2008-10-24 | 2012-12-11 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
US8190437B2 (en) * | 2008-10-24 | 2012-05-29 | Nuance Communications, Inc. | Speaker verification methods and apparatus |
JP5042194B2 (ja) | 2008-10-27 | 2012-10-03 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 話者テンプレートを更新する装置及び方法 |
-
2008
- 2008-10-27 JP JP2008275807A patent/JP5042194B2/ja active Active
-
2009
- 2009-10-27 US US12/606,206 patent/US8775178B2/en not_active Expired - Fee Related
-
2014
- 2014-05-27 US US14/287,771 patent/US10621974B2/en not_active Expired - Fee Related
-
2020
- 2020-03-30 US US16/833,676 patent/US11335330B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10621974B2 (en) | 2008-10-27 | 2020-04-14 | International Business Machines Corporation | Updating a voice template |
US11335330B2 (en) | 2008-10-27 | 2022-05-17 | International Business Machines Corporation | Updating a voice template |
Also Published As
Publication number | Publication date |
---|---|
US11335330B2 (en) | 2022-05-17 |
US20100106501A1 (en) | 2010-04-29 |
US8775178B2 (en) | 2014-07-08 |
US20200227027A1 (en) | 2020-07-16 |
US20140278414A1 (en) | 2014-09-18 |
JP2010102254A (ja) | 2010-05-06 |
US10621974B2 (en) | 2020-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5042194B2 (ja) | 話者テンプレートを更新する装置及び方法 | |
KR102458806B1 (ko) | 공유된 음성 작동 디바이스상의 호출 핸들링 | |
US9818399B1 (en) | Performing speech recognition over a network and using speech recognition results based on determining that a network connection exists | |
US11948582B2 (en) | Systems and methods for speaker verification | |
JP6074050B2 (ja) | 音声検索システム、音声検索方法、及びコンピュータ読み取り可能な記憶媒体 | |
JP5311348B2 (ja) | 音声データ内の音声キーワード照合システム、その方法及び音声データ内の音声キーワード照合プログラム | |
JP6084654B2 (ja) | 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法 | |
TW201926079A (zh) | 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品 | |
JP5731998B2 (ja) | 対話支援装置、対話支援方法および対話支援プログラム | |
JP2001273283A (ja) | 言語を識別しかつ音声再生装置を制御する方法及び通信デバイス | |
US6246987B1 (en) | System for permitting access to a common resource in response to speaker identification and verification | |
WO2020192890A1 (en) | Systems and methods for speaker verification | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
JP5284745B2 (ja) | 電子メッセージに対するアクセスを管理する装置及び方法 | |
TW200304638A (en) | Network-accessible speaker-dependent voice models of multiple persons | |
JP4747573B2 (ja) | 音声情報加工システム、音声情報加工方法及び音声情報加工プログラム | |
CN108364638A (zh) | 一种语音数据处理方法、装置、电子设备和存储介质 | |
JP2010002973A (ja) | 音声データ主題推定装置およびこれを用いたコールセンタ | |
CN113170020A (zh) | 在支持语音的共享设备上指示呼入话音呼叫的呼叫方 | |
JP2002297179A (ja) | 自動応答対話システム | |
TWI855595B (zh) | 對話式語音辨識系統與方法 | |
KR100574007B1 (ko) | 음성 인식 기반의 개인별 전화국 서비스 제공 시스템 및 그 방법, 상기 방법을 실행하기 위한 프로그램이 기록된 기록매체 | |
JP2004309682A (ja) | 音声対話方法、音声対話端末装置、音声対話センタ装置、音声対話プログラム | |
JP2021064876A (ja) | 判定装置、判定方法及びプログラム | |
JPH10190842A (ja) | 音声対話システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111031 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120214 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120508 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20120522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120619 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20120619 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5042194 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150720 Year of fee payment: 3 |