JP2010175967A - 音声認識サーバ、電話機、音声認識システム、および音声認識方法 - Google Patents

音声認識サーバ、電話機、音声認識システム、および音声認識方法 Download PDF

Info

Publication number
JP2010175967A
JP2010175967A JP2009020178A JP2009020178A JP2010175967A JP 2010175967 A JP2010175967 A JP 2010175967A JP 2009020178 A JP2009020178 A JP 2009020178A JP 2009020178 A JP2009020178 A JP 2009020178A JP 2010175967 A JP2010175967 A JP 2010175967A
Authority
JP
Japan
Prior art keywords
telephone
model
voice
recognition server
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009020178A
Other languages
English (en)
Other versions
JP5059036B2 (ja
Inventor
Shi Cho
志鵬 張
Hirotaka Furukawa
博崇 古川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2009020178A priority Critical patent/JP5059036B2/ja
Priority to US12/693,796 priority patent/US8238525B2/en
Priority to EP10152046.8A priority patent/EP2219355A3/en
Priority to CN2010101085352A priority patent/CN101794577B/zh
Publication of JP2010175967A publication Critical patent/JP2010175967A/ja
Application granted granted Critical
Publication of JP5059036B2 publication Critical patent/JP5059036B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42136Administration or customisation of services
    • H04M3/42153Administration or customisation of services by subscriber
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • H04M2201/405Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition involving speaker-dependent recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/66Details of telephonic subscriber devices user interface aspects for indicating selection options for a communication line

Abstract

【課題】一台の端末で複数の電話番号が利用できるサービスにおいて、モデルの精度を高め、音声認識の性能を向上させる。
【解決手段】音声認識サーバ200は、電話機100からの音声を受信する音声受信部202と、音声受信部202が受信した音声を文字に変換するために用いられる一つ以上の音響モデルおよび一つ以上の言語モデルを格納するモデル格納部208と、電話機100の現在発信番号および他番号を判定する番号判定部204と、現在発信番号および他番号に基づきモデル格納部208に格納された音響モデルを選択し、且つ現在発信番号に基づきモデル格納部208に格納された言語モデルを選択するモデル選択部206と、モデル選択部206が選択した音響モデルおよび言語モデルに基づき、音声受信部202が受信した音声を文字に変換する音声認識部210と、を備える。
【選択図】図5

Description

本発明は、音声認識サーバ、電話機、音声認識システム、および音声認識方法に関するものである。
従来、例えば特許文献1に開示されるように、ユーザからの発声に対して音声認識を行う場合に、電話番号に応じて音声認識用の辞書を切り替える技術が知られている。また、例えば非特許文献1に開示されるように、一台の端末で複数の電話番号やメールアドレスが利用できるサービス(いわゆる2in1サービス)が展開されている。
特開2000−10590号公報 2in1サービスのシステム開発、NTT DoCoMoテクニカル・ジャーナル、vol.15 No.3, P11-19
上記のような従来の技術を用いたサービスにおいて、同じ端末で複数の番号が使用され、それぞれの番号ごとに異なる言語モデルや音響モデルを用意するといった場合は、以下のような問題点がある。すなわち、同じ端末からの発声は通常同一ユーザの音声であるにもかかわらず、異なる番号それぞれに対して異なるモデルで音声認識を行ったり、異なるモデルそれぞれに対して個別に更新を行っては、モデルの精度が低くなり、音声認識の性能が低下するおそれがある。
そこで、本発明は上記に鑑みてなされたもので、一台の端末で複数の電話番号が利用できるサービスにおいて、モデルの精度を高め、音声認識の性能を向上させることが可能な音声認識サーバ、電話機、音声認識システム、および音声認識方法を提供することを目的とする。
上記課題を解決するために、本発明の音声認識サーバは、一台の端末で複数の電話番号が利用可能な電話機と接続され、且つ前記電話機からの音声を文字に変換する音声認識サーバであって、前記電話機からの音声を受信する音声受信手段と、前記音声受信手段が受信した音声を文字に変換するために用いられる一つ以上の音響モデルおよび一つ以上の言語モデルを格納するモデル格納手段と、前記電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を判定する番号判定手段と、前記現在発信番号および前記他番号に基づき前記モデル格納手段に格納された音響モデルを選択し、且つ前記現在発信番号に基づき前記モデル格納手段に格納された言語モデルを選択するモデル選択手段と、前記モデル選択手段が選択した音響モデルおよび言語モデルに基づき、前記音声受信手段が受信した音声を文字に変換する音声認識手段と、を備える。
また、本発明の電話機は、音声を文字に変換する音声認識サーバと接続され、且つ一台の端末で複数の電話番号が利用可能な電話機であって、ユーザからの音声を前記音声認識サーバに送信する音声送信手段と、当該電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を検知する番号検知手段と、前記現在発信番号および前記他番号を前記音声認識サーバに通知する番号通知手段と、を備える。
また、本発明の音声認識システムは、一台の端末で複数の電話番号が利用可能な電話機、および前記電話機からの音声を文字に変換する音声認識サーバを備えた音声認識システムであって、前記電話機は、ユーザからの音声を前記音声認識サーバに送信する音声送信手段と、当該電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を検知する番号検知手段と、前記現在発信番号および前記他番号を前記音声認識サーバに通知する番号通知手段と、を備え、前記音声認識サーバは、前記電話機からの音声を受信する音声受信手段と、前記音声受信手段が受信した音声を文字に変換するために用いられる一つ以上の音響モデルおよび一つ以上の言語モデルを格納するモデル格納手段と、前記電話機の前記番号通知手段からの通知に基づき、前記現在発信番号および前記他番号を判定する番号判定手段と、前記現在発信番号および前記他番号に基づき前記モデル格納手段に格納された音響モデルを選択し、且つ前記現在発信番号に基づき前記モデル格納手段に格納された言語モデルを選択するモデル選択手段と、前記モデル選択手段が選択した音響モデルおよび言語モデルに基づき、前記音声受信手段が受信した音声を文字に変換する音声認識手段と、を備える。
また、本発明の音声認識方法は、一台の端末で複数の電話番号が利用可能な電話機と接続され、且つ前記電話機からの音声を文字に変換する音声認識サーバにおける音声認識方法であって、前記音声認識サーバのモデル格納手段が、前記電話機からの音声を文字に変換するために用いられる一つ以上の音響モデルおよび一つ以上の言語モデルを格納し、前記音声認識サーバの音声受信手段が、前記電話機からの音声を受信する音声受信ステップと、前記音声認識サーバの番号判定手段が、前記電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を判定する番号判定ステップと、前記音声認識サーバのモデル選択手段が、前記現在発信番号および前記他番号に基づき前記モデル格納手段に格納された音響モデルを選択し、且つ前記現在発信番号に基づき前記モデル格納手段に格納された言語モデルを選択するモデル選択ステップと、前記音声認識サーバの音声認識手段が、前記モデル選択手段が選択した音響モデルおよび言語モデルに基づき、前記音声受信手段が受信した音声を文字に変換する音声認識ステップと、を備える。
この際、本発明の音声認識サーバにおいては、前記モデル格納手段は、一つの電話機で利用可能な全ての電話番号に対して共通の音響モデルを格納し、前記モデル選択手段は、前記一つの電話機における何れの前記現在発信番号および前記他番号に基づいても、前記共通の音響モデルを選択することが好適である。
このような本発明の音声認識サーバ、電話機、音声認識システム、および音声認識方法によれば、音声認識サーバのモデル選択手段は、現在発信番号および他番号の両方に基づいて、音響モデルを選択する。つまり、現在発信番号および他番号の両方に共通の音響モデルを選択する。これは、本発明が、一台の端末で一人のユーザが複数の電話番号を利用する電話機における音声認識を前提としているからである。つまり、電話番号は異なってもユーザは同一であるため、共通の音響モデルを用いることにより、音声認識の性能を高めることができる。共通の音響モデルを用いることは、特に、同一端末の新規番号からの音声に対して音声認識を行うときに、優れた効果を奏する。つまり、従来の技術においては、新規番号であれば、利用可能な音響モデルに対しての更新が十分に行われていない可能性が高いため、新規番号に対する音声認識の性能は必然的に低くなることが多いが、本発明では、新規番号からの音声に対して、既存番号に対応する音響モデルを利用できるため、新規番号からの音声に対する認識の精度が高くなる。また、共通の音響モデルを用いることで、音声認識サーバのモデル格納手段に格納すべき音響モデルの数を減らすことができ、これにより音響モデル格納のための容量を少なくすることができる。一方、言語モデルに対しては、一人のユーザを想定してはいるものの、電話番号ごとに話題が異なる可能性もあるため、本発明の音声認識サーバのモデル選択手段は、現在発信番号のみに基づいて、言語モデルを選択する。つまり、現在発信番号に特化した言語モデルを選択する。
また、本発明の音声認識サーバは、前記一つの電話機からの全ての音声を利用して前記共通の音響モデルを更新する音響モデル更新手段を更に備えることが好適である。
一つの電話機からの全ての音声を利用して共通の音響モデルを更新することにより、音響モデルの更新を精度よく行うことができる。番号ごとに音響モデルを更新する場合に比べ、更新のための学習量が増えるからである。
また、本発明の音声認識サーバは、前記一つの電話機からの全ての音声のうち前記電話番号ごとの音声に対する認識結果を利用して、当該電話番号ごとの言語モデルを更新する言語モデル更新手段を更に備えることが好適である。
電話番号ごとの音声に対する認識結果を利用して電話番号ごとの言語モデルを更新することにより、電話番号ごとに話題が異なる場合に、当該話題に特化して言語モデルを更新することができる。
また、本発明の音声認識サーバは、前記一つの電話機で利用可能な前記複数の電話番号と、当該電話機のユーザ識別情報と、を対応付けて格納するデータ格納手段を更に備え、前記モデル選択手段は、前記現在発信番号および前記他番号に基づき前記データ格納手段に格納されたユーザ識別情報を選択し、且つ当該選択したユーザ識別情報に基づき前記モデル格納手段に格納された音響モデルを選択しても良い。
この場合には、モデル選択手段はユーザごとに異なる音響モデルを選択することができる。
また、本発明の音声認識サーバは、前記データ格納手段に格納された前記複数の電話番号と前記ユーザ識別情報との間の対応関係において、追加、変更、または削除の処理を行う対応関係制御手段を更に備えても良い。
この場合には、電話番号とユーザとの間の対応関係を制御することができる。
また、本発明の音声認識サーバにおいて、前記音声受信手段は、前記モデル選択手段が前記音響モデルおよび前記言語モデルを選択するために参照するモード識別情報を更に受信し、前記モデル選択手段は、前記モード識別情報に基づき前記音響モデルおよび前記言語モデルを選択しても良い。
この場合に、モデル選択手段はモードに合致した音響モデルおよび言語モデルを選択することができる。
また、本発明の音声認識サーバにおいて、前記音声受信手段が前記モード識別情報を複数受信した場合に、前記モデル選択手段は、優先順位の高いモード識別情報に基づき前記音響モデルおよび前記言語モデルを選択しても良い。
この場合に、モデル選択手段は、モードの優先順位を更に考慮して、モードに合致した音響モデルおよび言語モデルを選択することができる。
また、本発明の音声認識サーバにおいて、前記音声受信手段は、前記電話機のユーザの属性情報を更に受信し、前記モデル選択手段は、前記属性情報を更に参照し前記音響モデルおよび前記言語モデルを選択しても良い。
この場合に、モデル選択手段は、ユーザの属性情報を更に参照して、ユーザの属性情報に合致した音響モデルおよび言語モデルを選択することができる。
また、本発明の電話機は、一台の端末で複数の電話番号が利用可能な電話機であって、ユーザからの音声を入力する音声入力手段と、当該電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を検知する番号検知手段と、前記音声入力手段が入力した音声を文字に変換するために用いられる音響モデルおよび言語モデルを格納するモデル格納手段と、前記現在発信番号および前記他番号に基づき前記モデル格納手段に格納された音響モデルを選択し、且つ前記現在発信番号に基づき前記モデル格納手段に格納された言語モデルを選択するモデル選択手段と、前記モデル選択手段が選択した音響モデルおよび言語モデルに基づき、前記音声入力手段が入力した音声を文字に変換する音声認識手段と、を備える。
この際、本発明の電話機においては、前記モデル格納手段は、当該電話機で利用可能な全ての電話番号に対して共通の音響モデルを格納し、前記モデル選択手段は、当該電話機における何れの前記現在発信番号および前記他番号に基づいても、前記共通の音響モデルを選択することが好適である。
このような本発明の電話機によれば、電話機のモデル選択手段は、現在発信番号および他番号の両方に基づいて、音響モデルを選択する。つまり、現在発信番号および他番号の両方に共通の音響モデルを選択する。これは、本発明が、一台の端末で一人のユーザが複数の電話番号を利用する電話機における音声認識を前提としているからである。つまり、電話番号は異なってもユーザは同一であるため、共通の音響モデルを用いることにより、音声認識の性能を高めることができる。共通の音響モデルを用いることは、特に、同一端末の新規番号からの音声に対して音声認識を行うときに、優れた効果を奏する。つまり、従来の技術においては、新規番号であれば、利用可能な音響モデルに対しての更新が十分に行われていない可能性が高いため、新規番号に対する音声認識の性能は必然的に低くなることが多いが、本発明では、新規番号からの音声に対して、既存番号に対応する音響モデルを利用できるため、新規番号からの音声に対する認識の精度が高くなる。また、共通の音響モデルを用いることで、音声認識サーバのモデル格納手段に格納すべき音響モデルの数を減らすことができ、これにより音響モデル格納のための容量を少なくすることができる。一方、言語モデルに対しては、一人のユーザを想定してはいるものの、電話番号ごとに話題が異なる可能性もあるため、本発明の電話機のモデル選択手段は、現在発信番号のみに基づいて、言語モデルを選択する。つまり、現在発信番号に特化した言語モデルを選択する。
また、本発明の電話機は、前記ユーザからの全ての音声を利用して前記共通の音響モデルを更新する音響モデル更新手段を更に備えることが好適である。
ユーザからの全ての音声を利用して共通の音響モデルを更新することにより、音響モデルの更新を精度よく行うことができる。番号ごとに音響モデルを更新する場合に比べ、更新のための学習量が増えるからである。
また、本発明の電話機は、前記ユーザからの全ての音声のうち前記電話番号ごとの音声に対する認識結果を利用して、当該電話番号ごとの言語モデルを更新する言語モデル更新手段を更に備えることが好適である。
電話番号ごとの音声に対する認識結果を利用して電話番号ごとの言語モデルを更新することにより、電話番号ごとに話題が異なる場合に、当該話題に特化して言語モデルを更新することができる。
本発明によれば、一台の端末で複数の電話番号が利用できるサービスにおいて、モデルの精度を高め、音声認識の性能を向上させることが可能な音声認識サーバ、電話機、音声認識システム、および音声認識方法を提供することができる。
第1実施形態にかかる音声認識システム1の構成概要図である。 第1実施形態にかかる音声認識システム1の構成概要図である。 電話機100および音声認識サーバ200のハードウェア構成図である。 電話機100の機能的構成を示す構成概要図である。 音声認識サーバ200の機能的構成を示す構成概要図である。 音声認識システム1により行われる動作を示すフローチャートである。 図6のステップS104における音響モデル選択処理を詳細に説明するための図である。 図6のステップS105における言語モデル選択処理を詳細に説明するための図である。 第2実施形態にかかる音声認識サーバ250の構成概要図である。 図10(A)は番号変換データ格納部214において電話番号とユーザIDとが対応付けられて格納された一例を示す図である。図10(B)はモデル格納部208においてユーザIDと音響モデルとが対応付けられて格納された一例を示す図である。 番号制御部218が行う各処理を詳細に説明するためのフローチャートである。 番号制御部218が行う新規追加処理の前後の状態を示す図である。 番号制御部218が行う削除処理の前後の状態を示す図である。 番号制御部218が行う変更処理の前後の状態を示す図である。 第3実施形態にかかる音声認識サーバ260の構成概要図である 第4実施形態にかかる音声認識システム2および電話機150の構成概要図である。
以下、添付図面を参照して本発明にかかる音声認識サーバ、電話機、音声認識システム、および音声認識方法の好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
<第1実施形態>
(音声認識システム1の全体構成)
まず、本発明の第1実施形態に係る音声認識システム1の全体構成について、図1および図2を参照しながら説明する。図1および図2は、音声認識システム1の構成概要図である。図1に示すように、音声認識システム1は、電話機100および音声認識サーバ200から構成され、電話機100と音声認識サーバ200とは通信ネットワーク300により互いに接続されている。電話機100は、一台の端末で複数の電話番号やメールアドレス(いわゆる「2in1サービス」)が利用可能な携帯電話機である。音声認識サーバ200は、電話機100からの音声を文字に変換し、その結果を電話機100に送信するサーバ装置である。また、図2に示すように、音声認識システム1が加入者情報制御装置400を更に備えて構成されても良い。加入者情報制御装置400は、いわゆる「2in1サービス」における加入者情報を制御および管理するものである。
(電話機100の構成)
電話機100について詳細に説明する。図3は電話機100のハードウェア構成図である。図3に示すように、電話機100は、物理的には、CPU11、主記憶装置であるROM12及びRAM13、操作ボタンなどの入力デバイス14、LCDや有機ELディスプレイなどの出力デバイス15、音声認識サーバ200との間でデータの送受信を行う通信モジュール16、メモリディバイス等の補助記憶装置17を備えて構成される。後述する電話機100の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
図4は、電話機100の機能的構成を示す構成概要図である。図4に示すように、電話機100は、機能的には、音声入力部102、音声送信部104(特許請求の範囲の「音声送信手段」に相当)、番号検知部106(特許請求の範囲の「番号検知手段」に相当)、および番号通知部108(特許請求の範囲の「番号通知手段」に相当)を備えて構成される。
音声入力部102は、ユーザが発声した音声を入力するものである。音声送信部104は、音声入力部102が入力した音声を音声認識サーバ200に送信するものである。図示はしないが、音声入力部102が入力した音声から音声特徴量を抽出する手段を更に設け、音声送信部104が当該音声特徴量データを音声認識サーバ200に送信するようにしても良い。音声送信部104は例えば図3に示した通信モジュール16から構成することができる。
番号検知部106は、現在発信番号および他番号を検知するものである。現在発信番号は、電話機100の現在の発信電話番号である。他番号は、電話機100にて利用可能な複数の電話番号のうち、現在発信番号以外の電話番号である。番号通知部108は、番号検知部106が検知した現在発信番号および他番号を音声認識サーバ200に通知するものである。番号通知部108は例えば図3に示した通信モジュール16から構成することができる。
図1および図4に示すように、電話機100が音声(音声特徴量データ)および番号情報を直接音声認識サーバ200に送信するように構成してもよく、図2に示すように、電話機100が音声(音声特徴量データ)および番号情報を加入者情報制御装置400を介して音声認識サーバ200に送信するように構成しても良い。後者の場合には、図示はしないが、番号検知部106および番号通知部108に相当する手段が加入者情報制御装置400に設けられていても良い。
(音声認識サーバ200の構成)
続いて、音声認識サーバ200について詳細に説明する。図3は音声認識サーバ200のハードウェア構成図である。図3に示すように、音声認識サーバ200は、物理的には、CPU21、ROM22及びRAM23等の主記憶装置、キーボード及びマウス等の入力デバイス24、ディスプレイ等の出力デバイス25、電話機100との間でデータの送受信を行う通信モジュール26、ハードディスク等の補助記憶装置27などを含む通常のコンピュータシステムとして構成される。後述する音声認識サーバ200の各機能は、CPU21、ROM22、RAM23等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU21の制御の元で入力デバイス24、出力デバイス25、通信モジュール26を動作させると共に、主記憶装置22,23や補助記憶装置27におけるデータの読み出し及び書き込みを行うことで実現される。
図5は、音声認識サーバ200の機能的構成を示す構成概要図である。図5に示すように、音声認識サーバ200は、機能的には、音声受信部202(特許請求の範囲の「音声受信手段」に相当)、番号判定部204(特許請求の範囲の「番号判定手段」に相当)、モデル選択部206(特許請求の範囲の「モデル選択手段」に相当)、モデル格納部208(特許請求の範囲の「モデル格納手段」に相当)、音声認識部210(特許請求の範囲の「音声認識手段」に相当)、およびモデル更新部212(特許請求の範囲の「音響モデル更新手段」および「言語モデル更新手段」に相当)を備えて構成される。
音声受信部202は、電話機100のユーザが発声した音声またはその特徴量データを電話機100より受信するものである。または、音声認識システム1を図2に示すように加入者情報制御装置400を含めて構成した場合には、音声受信部202が加入者情報制御装置400を介して電話機100からの音声またはその特徴量データを受信しても良い。音声受信部202は例えば図3に示した通信モジュール26から構成することができる。音声受信部202は受信した音声またはその特徴量データを音声認識部210およびモデル更新部212に出力する。
番号判定部204は、電話機100の番号通知部108からの通知に基づき、電話機100の現在発信番号および他番号を判定するものである。または、音声認識システム1を図2に示すように加入者情報制御装置400を含めて構成した場合には、図5に示してはいないが、番号判定部204が加入者情報制御装置400より現在発信番号および他番号に対する通知を受信し、当該通知に基づき、電話機100の現在発信番号および他番号を判定しても良い。番号判定部204は判定した現在発信番号および他番号をモデル選択部206に出力する。
モデル選択部206は、番号判定部204が判定した現在発信番号および他番号に基づきモデル格納部208に格納された音響モデルを選択し、且つ現在発信番号に基づきモデル格納部208に格納された言語モデルを選択するものである。モデル格納部208は、音声受信部202が受信した音声を文字に変換するために用いられる一つ以上の音響モデルおよび一つ以上の言語モデルを格納するものである。モデル格納部208は、一つの電話機で利用可能な全ての電話番号に対して共通の音響モデルを格納し、モデル選択部206は、一つの電話機における何れの現在発信番号および他番号に基づいても、上記共通の音響モデルを選択する。なお、モデル選択部206およびモデル格納部208に関連する処理の詳細については、後述する「音声認識システム1の動作」において図7および図8を参照しながら詳細に説明する。モデル選択部206は、選択した音響モデルおよび言語モデルを音声認識部210に出力する。
音声認識部210は、モデル選択部206が選択した音響モデルおよび言語モデルに基づき、音声受信部202が受信した音声を文字に変換するものである。音声認識の手法そのものは、例えば下記の参考文献1に開示されているように公知の技術であるため、ここでは説明を省略する。音声認識部210は音声認識処理を行った結果を電話機100へ送信する。電話機100はその結果を受信しユーザに表示する。また、音声認識部210は音声認識結果をモデル更新部212に出力する。
参考文献1:音声認識システム、ISBN/ASIN:4274132285、武田一哉、オーム社
モデル更新部212は、音声受信部202が受信した電話機100からの音声、および音声認識部210から入力した音声認識結果を学習の対象として利用して、モデル格納部208に格納されている音響モデルおよび言語モデルを更新するものである。モデル更新部212は、電話機100からの全ての音声および音声認識部210からの全ての音声認識結果を学習の対象として利用して、一つの電話機における共通の音響モデルを更新する。すなわち、例えば電話機100で利用可能な電話番号がAおよびBである場合に、モデル更新部212は電話番号AおよびBにて発声された全ての音声および当該音声の認識結果の全てを学習の対象として利用して、電話機100における電話番号AおよびBに共通の音響モデルを更新する。
一方、モデル更新部212は、音声認識部210からの全ての音声認識結果のうち電話番号ごとに区別した音声認識結果を利用して、当該電話番号ごとの言語モデルを更新する。すなわち、例えば電話機100で利用可能な電話番号がAおよびBである場合に、モデル更新部212は電話番号Aにて発声された音声に対する認識結果(すなわち、文字)を学習の対象として利用して、電話機100の電話番号Aのための言語モデルを更新する。また、この場合に、モデル更新部212は電話番号Bにて発声された音声に対する認識結果を学習の対象として利用して、電話機100の電話番号Bのための言語モデルを更新する。
モデル更新の手法、つまり音響モデルおよび言語モデルにおける各パラメータの更新方法としては、例えば以下の式(1)に基づいた更新方法が挙げられる。
μ=μw+(1−w)X…(1)
上記式(1)において、μは更新後のパラメータであり、μは更新前のパラメータであり、wは更新における所定の重みであり、Xは入力音声の平均値である。なお、モデル更新の手法そのものは、例えば下記の参考文献2に開示されているように公知の技術であるため、ここでは説明を省略する。
参考文献2:確率モデルによる音声認識のための話者適応化技術、電子情報通信学会論文誌D-II vol.J87-D-II、no.2、pp.371-386 (2004-2)
(音声認識システム1の動作)
続いて、音声認識システム1により行われる動作(特許請求の範囲の「音声認識方法)について、図6を参照しながら説明する。図6は音声認識システム1により行われる動作を示すフローチャートである。なお、以下の説明においては、説明の便宜上、以下の事項を仮定する。すなわち、電話機100では電話番号AおよびBの複数の電話番号が利用可能であり、このうち現在発信番号が電話番号Aであり、他番号が電話番号Bである。また、音声認識サーバ200のモデル格納部208は、電話機100からの音声を文字に変換するために用いられる音響モデルおよび言語モデルを格納することはもちろんのこと、音声認識システム1内に存在する電話機100以外の他の電話機(図示せず)からの音声に対して認識を行うための音響モデルおよび言語モデルも格納している。
最初に、音声認識サーバ200の音声受信部202が、電話機100より直接、または加入者情報制御装置400を介して、電話機100のユーザが発声した音声またはその特徴量データを受信する。また、音声認識サーバ200の番号判定部204が、電話機100または加入者情報制御装置400より、現在発信番号および他番号に対する通知を受信する(ステップS101、特許請求の範囲の「音声受信ステップ」に相当)。
次に、音声認識サーバ200の番号判定部204が、ステップS101の番号通知に基づき、電話機100の現在発信番号および他番号を判定する。上記仮定により、番号判定部204は、現在発信番号がAであり、他番号がBであることを判定する(ステップS102およびステップS103、特許請求の範囲の「番号判定ステップ」に相当)。
次に、音声認識サーバ200のモデル選択部206が、ステップS102およびステップS103にて判定された現在発信番号および他番号に基づき、モデル格納部208に格納された電話機100からの音声を認識するための音響モデルを選択する。また、モデル選択部206が、現在発信番号に基づき、モデル格納部208に格納された電話機100からの音声を認識するための言語モデルを選択する(ステップS104およびステップS105、特許請求の範囲の「モデル選択ステップ」に相当)。
ステップS104の音響モデル選択処理について、図7を更に参照しながら説明する。モデル格納部208は、図7に示すようなテーブルを格納している。図7は、電話機100を含む音声認識システム1内の全ての電話機で利用可能な電話番号(A、B、C、D、E等)と、それぞれの電話番号にて発声された音声を文字に変換するために用いられる音響モデル(MAB、M、MDE等)と、が対応付けられて格納されている。すなわち、電話番号Aにて発声された音声は音響モデルMABを用いて音声認識することができ、電話番号Cにて発声された音声は音響モデルMを用いて音声認識することができる。また、図7において、一つの枠内に記載された電話番号は、一台の電話機で利用可能な電話番号を示す。すなわち、電話番号AとBは電話機100で利用可能な番号であり、電話番号Cは電話機100以外の他の電話機(図示せず)で利用可能な番号であり、電話番号DとEは電話機100以外の更に他の電話機(図示せず)で利用可能な番号である。モデル選択部206は、このようなテーブル参照して音響モデルを選択する。すなわち、モデル選択部206は、電話機100の現在発信番号および他番号に相当する電話番号AおよびBを図7のテーブルの左列から検索し、電話番号AおよびBに対応付けられて格納されている音響モデルMABを選択する。なお、この例は現在発信番号がAであり他番号がBである場合の例であるが、逆に、現在発信番号がBであり他番号がAである場合にも、同様な選択が行われる。つまり、モデル格納部208は一つの電話機で利用可能な全ての電話番号に対して共通の音響モデルを格納しており、モデル選択部206は当該一つの電話機における何れの現在発信番号および他番号に基づいても上記共通の音響モデルを選択する。
ステップS105の言語モデル選択処理について、図8を更に参照しながら説明する。モデル格納部208は、図8に示すようなテーブルを格納している。図8は、電話機100を含む音声認識システム1内の全ての電話機で利用可能な電話番号(A、B、C、D、E等)と、それぞれの電話番号にて発声された音声を文字に変換するために用いられる言語モデル(L、L、L、L、L等)と、が対応付けられて格納されている。すなわち、電話番号Aにて発声された音声は言語モデルLを用いて音声認識することができ、電話番号Cにて発声された音声は言語モデルLを用いて音声認識することができる。モデル選択部206は、このようなテーブル参照して言語モデルを選択する。すなわち、モデル選択部206は、電話機100の現在発信番号に相当する電話番号Aを図8のテーブルの左列から検索し、電話番号Aに対応付けられて格納されている言語モデルLを選択する。なお、この例は現在発信番号がAであり他番号がBである場合の例であるが、逆に、現在発信番号がBであり他番号がAである場合には、モデル選択部206は、電話機100の現在発信番号に相当する電話番号Bを図8のテーブルの左列から検索し、電話番号Bに対応付けられて格納されている言語モデルLを選択する。つまり、モデル格納部208は一つの電話機で利用可能な全ての電話番号それぞれに対して異なる言語モデルを格納しており、モデル選択部206は当該電話番号ごとに異なる言語モデルを選択する。
図6のフローチャートに戻り、ステップS104およびステップS105のモデル選択手順の次に、音声認識サーバ200の音声認識部210が、モデル選択部206が選択した音響モデルおよび言語モデルに基づき、音声受信部202が受信した音声を文字に変換する。上記仮定によれば、音声認識部210は、音響モデルMABおよび言語モデルLに基づき、電話機100からの音声に対して認識処理を行う(ステップS106、特許請求の範囲の「音声認識ステップ」に相当)。
次に、音声認識サーバ200のモデル更新部212が、音声受信部202が受信した電話機100からの音声、および音声認識部210から入力した音声認識結果を学習の対象として利用して、モデル格納部208に格納されている音響モデルおよび言語モデルを更新する。上記仮定によれば、モデル更新部212は電話番号AおよびBにて発声された全ての音声および当該音声の認識結果の全てを学習の対象として利用して、電話機100における電話番号AおよびBに共通の音響モデルMABを更新する。なお、上記仮定では現在発信番号がAであったため、当該電話番号Aにおいて発声された音声および当該音声の認識結果を学習の対象として利用して、共通の音響モデルMABを更新するが、これとは違って、現在発信番号がBである場合においても、当該電話番号Bにおいて発声された音声および当該音声の認識結果を学習の対象として利用して、共通の音響モデルMABを更新する。要するに、共通の音響モデルMABは、発信番号Aにおける発声および発信番号Bにおける発声の両方に基づいて更新される。一方、モデル更新部212は、電話機100からの全ての音声のうち、電話番号ごとに区別した音声に対する認識結果(すなわち、文字)を学習の対象として利用して、当該電話番号ごとの言語モデルを更新する。上記仮定によれば、モデル更新部212は、現在発信番号である電話番号Aにて発声された音声に対する認識結果を学習の対象として利用して、電話機100の電話番号Aのための言語モデルLを更新する。要するに、言語モデルは、発信番号ごとに更新される(ステップS107)。
最後に、ステップS106における音声認識の結果を電話機100側で受信してユーザに表示する(ステップS108)。
(第1実施形態の作用及び効果等)
続いて、第1実施形態の作用及び効果について説明する。第1実施形態によれば、音声認識サーバ200のモデル選択部206は、現在発信番号および他番号の両方に基づいて、音響モデルを選択する。つまり、現在発信番号および他番号の両方に共通の音響モデルを選択する。これは、本実施形態が、一台の端末で一人のユーザが複数の電話番号を利用する電話機100における音声認識を前提としているからである。つまり、電話番号は異なってもユーザは同一であるため、共通の音響モデルを用いることにより、音声認識の性能を高めることができる。共通の音響モデルを用いることは、特に、同一端末の新規番号からの音声に対して音声認識を行うときに、優れた効果を奏する。つまり、従来の技術においては、新規番号であれば、利用可能な音響モデルに対しての更新が十分に行われていない可能性が高いため、新規番号に対する音声認識の性能は必然的に低くなることが多いが、本実施形態では、新規番号からの音声に対して、既存番号に対応する音響モデルを利用できるため、新規番号からの音声に対する認識の精度が高くなる。また、共通の音響モデルを用いることで、音声認識サーバ200のモデル格納部208に格納すべき音響モデルの数を減らすことができ、これにより音響モデル格納のための容量を少なくすることができる。一方、言語モデルに対しては、一人のユーザを想定してはいるものの、電話番号ごとに話題が異なる可能性もあるため、本実施形態の音声認識サーバ200のモデル選択部206は、現在発信番号のみに基づいて、言語モデルを選択する。つまり、現在発信番号に特化した言語モデルを選択する。
また、一つの電話機100からの全ての音声を利用して共通の音響モデルを更新することにより、音響モデルの更新を精度よく行うことができる。番号ごとに音響モデルを更新する場合に比べ、更新のための学習量が増えるからである。
また、電話番号ごとの音声に対する認識結果を利用して電話番号ごとの言語モデルを更新することにより、電話番号ごとに話題が異なる場合に、当該話題に特化して言語モデルを更新することができる。
<第2実施形態>
続いて、本発明の第2実施形態について説明する。なお、上記説明した第1実施形態と重複する部分については説明を省略し、第1実施形態との相違点を中心に説明する。
図9は、第2実施形態にかかる音声認識サーバ250の構成概要図である。第1実施形態における音声認識サーバ200と比べて、音声認識サーバ250は、番号変換データ格納部214(特許請求の範囲の「データ格納手段」に相当)、番号変換部216(特許請求の範囲の「モデル選択手段」に相当)、および番号制御部218(特許請求の範囲の「対応関係制御手段」に相当)を更に備える。
番号変換データ格納部214は、一つの電話機で利用可能な複数の電話番号と、当該電話機のユーザ識別情報と、を対応付けて格納するものである。具体的に、番号変換データ格納部214は、図10(A)に示すようなテーブルを格納している。図10(A)は、電話機100を含む音声認識システム1内の全ての電話機で利用可能な電話番号(A、B、C、D、E等)と、それぞれの電話番号を利用するユーザの識別情報であるユーザIDと、が対応付けられて格納されている。すなわち、図10(A)に示されるように、電話番号A,BはユーザIDがABのユーザにより利用され、電話番号CはユーザIDがCCのユーザにより利用され、電話番号D,EはユーザIDがDEのユーザにより利用される。
図9に戻り、番号判定部204は、電話機100または加入者情報制御装置400からの番号通知に基づき電話機100の現在発信番号および他番号を判定すると、その結果を番号変換部216に出力する。
番号変換部216は、番号判定部204が判定した現在発信番号および他番号に基づき、番号変換データ格納部214に格納されたユーザIDを選択する。例えば電話機100で利用可能な電話番号がAおよびBである場合に、番号変換部216は番号変換データ格納部214を参照しABのユーザIDを選択する。番号変換部216は、当該選択したユーザIDをモデル選択部206に通知する。
モデル選択部206は、番号変換部216が選択したユーザIDに基づきモデル格納部208に格納された音響モデルを選択する。モデル格納部208は、図10(B)に示すようなテーブルを格納している。図10(B)は、電話機100を含む音声認識システム1内の全ての電話機のユーザの識別情報であるユーザID(AB、CC、DE等)と、それぞれのユーザIDに関連して音声認識を行う際に用いられる音響モデル(MAB、M、MDE等)と、が対応付けられて格納されている。すなわち、ユーザIDがABの場合には音響モデルMABを用いて音声認識することができ、ユーザIDがCCの場合には音響モデルMを用いて音声認識することができ、ユーザIDがDEの場合には音響モデルMDEを用いて音声認識することができる。モデル選択部206は、このようなテーブル参照して音響モデルを選択する。すなわち、モデル選択部206は、番号変換部216が選択したユーザIDがABの場合には音響モデルMABを選択し、番号変換部216が選択したユーザIDがCCの場合には音響モデルMを選択し、番号変換部216が選択したユーザIDがDEの場合には音響モデルMDEを選択する。つまり、モデル格納部208はユーザごとに異なる音響モデルを格納しており、モデル選択部206は、現在発信番号および他番号にかかわらず、ユーザを基準にして音響モデルを選択する。以上、音響モデルの選択処理について説明したが、言語モデルについては、ユーザIDと関係なく、第1実施形態で説明したように、電話番号を基準にして選択するようにしても良い。
図9に戻り、番号制御部218は、番号変換データ格納部214に格納された電話番号とユーザIDとの間の対応関係(図10(A)を参照)において、追加、変更、または削除の各処理を行うものである。図11はその処理手順を示すフローチャートである。図11に示すように、番号制御部218は、まず、制御信号、番号データ、およびユーザIDデータを受信し(ステップS201)、次に当該受信した制御信号の種類を判定する(ステップS202)。なお、ステップS201における制御信号、番号データ、およびユーザIDデータは、加入者情報制御装置400より受信しても良く、または電話機100や図示しない他の装置より受信しても良い。
ステップS202の判定の結果、新規追加の場合は(ステップS202:YES)、新規追加処理を行う(ステップS203)。図12(A)は既存のテーブルを示し、図12(B)は新規追加処理を行った後のテーブルを示す。図12に示されるように、電話番号Fと、それに対応するユーザIDであるFFが新規追加されている。
一方、ステップS202の判定の結果、新規追加ではない場合は(ステップS202:NO)、まず、処理対象を把握した後に、つまり既存のテーブルからどの番号データに削除や変更処理を行うかを把握した後に(ステップS204)、ステップS201にて受信した制御信号の種類を再び判定する(ステップS205)。
ステップS205の判定の結果、削除の場合は(ステップS205:YES)、削除処理を行う(ステップS206)。図13(A)は既存のテーブルを示し、図13(B)は削除処理を行った後のテーブルを示す。図13に示されるように、電話番号DやEと、それらに対応するユーザIDであるDEが削除されている。
一方、ステップS205の判定の結果、削除ではない場合は(ステップS202:NO)、ステップS201にて受信した制御信号が変更の旨を表すかを判定する(ステップS207)。
ステップS207の判定の結果、変更の場合は(ステップS207:YES)、変更処理を行う(ステップS208)。図14(A)は既存のテーブルを示し、図14(B)は変更処理を行った後のテーブルを示す。図14に示されるように、電話番号Cに対応するユーザIDは変更前にCCであったが、変更後はFFになっている。
一方、ステップS207の判定の結果、変更ではない場合は(ステップS207:NO)、処理はそのまま終了する。
以上で説明した第2実施形態によれば、モデル選択部206はユーザごとに異なる音響モデルを選択することができる。また、電話番号とユーザとの間の対応関係を制御することができる。
<第3実施形態>
続いて、本発明の第3実施形態について説明する。なお、上記説明した第1実施形態と重複する部分については説明を省略し、第1実施形態との相違点を中心に説明する。
図15は、第3実施形態にかかる音声認識サーバ260の構成概要図である。第1実施形態における音声認識サーバ200と比べて、音声認識サーバ260は、モード識別情報受信部220(特許請求の範囲の「音声受信手段」に相当)を更に備える。モード識別情報受信部220はモード識別情報を受信するものである。モード識別情報は、モデル選択部206が音響モデルおよび言語モデルを選択するために参照する情報である。モード識別情報が表すモードが、例えば、電話機100で利用可能な電話番号を特定する場合がある。その一例として、電話機100で利用可能な電話番号がAおよびBである場合に、第1モードは電話番号Aを表し、第2モードは電話番号Bを表す。また、第3モードは電話番号AおよびBの両方を表す。そしてモード識別情報は何れかのモードを表し、モード識別情報受信部220はこのようなモード識別情報を電話機100より受信し、モデル選択部206に出力する。なお、図15では、モード識別情報受信部220が電話機100よりモード識別情報を受信する例を示しているが、これに限らず、モード識別情報を格納する他の装置(図示せず)が更に存在し、モード識別情報受信部220が当該装置よりモード識別情報を受信するようにしても良い。
モデル選択部206は、モード識別情報受信部220より入力したモード識別情報に基づき、モデル格納部208に格納された音響モデルおよび言語モデルを選択する。例えば、モード識別情報が上記第3モードを表す場合に、モデル選択部206は、電話番号AおよびBに共通の音響モデルおよび言語モデルをモデル格納部208より選択する。なお、モデル格納部208には、電話番号AおよびBに共通の音響モデルおよび言語モデルが事前に格納されている。また、電話番号AおよびBに共通の音響モデルおよび言語モデルとは、電話番号Aでの発声に対する音声認識でも、電話番号Bでの発声に対する音声認識でも用いられる音響モデルおよび言語モデルをいい、電話番号Aでの発声および電話番号Bでの発声、そしてそれらの音声認識結果を学習対象として用いて更新される音響モデルおよび言語モデルをいう。また、例えば、モード識別情報が上記第1モードを表す場合に、モデル選択部206は、電話番号Aに特化した音響モデルおよび言語モデルをモデル格納部208より選択する。
以上、第3実施形態にかかるモード識別情報受信部220およびモデル選択部206の基本的な機能について説明したが、本発明の第3実施形態はこれに限らない。例えば、モード識別情報受信部220がモード識別情報を複数受信した場合に、モデル選択部206が優先順位の高いモード識別情報に基づき音響モデルおよび言語モデルを選択するように構成しても良い。この場合には、モード識別情報受信部220が優先順位を示す情報を更に受信するようにしても良い。また、モード識別情報受信部220が、モード識別情報に加え、電話機100のユーザの属性情報を更に受信し、モデル選択部206は、当該属性情報を更に参照し、音響モデルおよび言語モデルを選択するように構成しても良い。ユーザの属性情報とは、ユーザに関する情報であり、例えば年齢、性別、趣味、職種などを表す情報である。
以上で説明した第3実施形態によれば、モデル選択部206はモードに合致した音響モデルおよび言語モデルを選択することができる。また、モデル選択部206は、モードの優先順位を更に考慮した上で、モードに合致した音響モデルおよび言語モデルを選択することができる。また、モデル選択部206は、ユーザの属性情報を更に参照して、ユーザの属性情報に合致した音響モデルおよび言語モデルを選択することができる。
<第4実施形態>
続いて、本発明の第4実施形態について説明する。なお、上記説明した第1実施形態と重複する部分については説明を省略し、第1実施形態との相違点を中心に説明する。
図16は、第4実施形態にかかる音声認識システム2および電話機150の構成概要図である。第1実施形態における音声認識システム1と比べて、音声認識システム2では、音声認識サーバが存在せず、その代わりに音声認識処理を電話機150で行う。
図16に示すように、電話機150は、機能的な構成要素として、音声入力部102(特許請求の範囲の「音声入力手段」に相当)、番号検知部106(特許請求の範囲の「番号検知手段」に相当)、モデル選択部110(特許請求の範囲の「モデル選択手段」に相当)、モデル格納部112(特許請求の範囲の「モデル格納手段」に相当)、音声認識部114(特許請求の範囲の「音声認識手段」に相当)、およびモデル更新部116(特許請求の範囲の「音響モデル更新手段」および「言語モデル更新手段」に相当)を備えて構成される。
音声入力部102は、ユーザが発声した音声を入力し、音声認識部114およびモデル更新部116に出力する。図示はしないが、音声入力部102が入力した音声から音声特徴量を抽出する手段を更に設け、当該音声特徴量データを音声認識部114およびモデル更新部116に出力するようにしても良い。
番号検知部106は、現在発信番号および他番号を検知し、モデル選択部110に出力する。
モデル選択部110は、番号検知部106が検知した現在発信番号および他番号に基づきモデル格納部112に格納された音響モデルを選択し、且つ現在発信番号に基づきモデル格納部112に格納された言語モデルを選択する。モデル格納部112は、音声入力部102が受信した音声を文字に変換するために用いられる音響モデルおよび言語モデルを格納する。モデル格納部112は、当該電話機150で利用可能な全ての電話番号に対して共通の音響モデルを格納し、モデル選択部110は、当該電話機150における何れの現在発信番号および他番号に基づいても、上記共通の音響モデルを選択する。モデル選択部110は、選択した音響モデルおよび言語モデルを音声認識部114に出力する。
音声認識部114は、モデル選択部110が選択した音響モデルおよび言語モデルに基づき、音声入力部102からの音声を文字に変換するものである。音声認識部114は音声認識処理を行った結果をユーザに表示するとともに、モデル更新部116に出力する。
モデル更新部116は、音声入力部102からの音声、および音声認識部114から入力した音声認識結果を学習の対象として利用して、モデル格納部112に格納されている音響モデルおよび言語モデルを更新するものである。モデル更新部116は、音声入力部102からの全ての音声および音声認識部114からの全ての音声認識結果を学習の対象として利用して、電話機150における共通の音響モデルを更新する。すなわち、例えば電話機150で利用可能な電話番号がAおよびBである場合に、モデル更新部116は電話番号AおよびBにて発声された全ての音声および当該音声の認識結果を学習の対象として利用して、電話機150における電話番号AおよびBに共通の音響モデルを更新する。
一方、モデル更新部116は、音声認識部114からの全ての音声認識結果のうち電話番号ごとに区別した音声認識結果を利用して、当該電話番号ごとの言語モデルを更新する。すなわち、例えば電話機150で利用可能な電話番号がAおよびBである場合に、モデル更新部116は電話番号Aにて発声された音声に対する認識結果(すなわち、文字)を学習の対象として利用して、電話機150の電話番号Aのための言語モデルを更新する。また、この場合に、モデル更新部116は電話番号Bにて発声された音声に対する認識結果を学習の対象として利用して、電話機150の電話番号Bのための言語モデルを更新する。
以上で説明した第4実施形態によれば、電話機150のモデル選択部110は、現在発信番号および他番号の両方に基づいて、音響モデルを選択する。つまり、現在発信番号および他番号の両方に共通の音響モデルを選択する。これは、本発明が、一台の端末で一人のユーザが複数の電話番号を利用する電話機150における音声認識を前提としているからである。つまり、電話番号は異なってもユーザは同一であるため、共通の音響モデルを用いることにより、音声認識の性能を高めることができる。共通の音響モデルを用いることは、特に、同一端末の新規番号からの音声に対して音声認識を行うときに、優れた効果を奏する。つまり、従来の技術においては、新規番号であれば、利用可能な音響モデルに対しての更新が十分に行われていない可能性が高いため、新規番号に対する音声認識の性能は必然的に低くなることが多いが、本発明では、新規番号からの音声に対して、既存番号に対応する音響モデルを利用できるため、新規番号からの音声に対する認識の精度が高くなる。また、共通の音響モデルを用いることで、音声認識サーバ200のモデル格納部112に格納すべき音響モデルの数を減らすことができ、これにより音響モデル格納のための容量を少なくすることができる。一方、言語モデルに対しては、一人のユーザを想定してはいるものの、電話番号ごとに話題が異なる可能性もあるため、本発明の電話機150のモデル選択部110は、現在発信番号のみに基づいて、言語モデルを選択する。つまり、現在発信番号に特化した言語モデルを選択する。
また、ユーザからの全ての音声を利用して共通の音響モデルを更新することにより、音響モデルの更新を精度よく行うことができる。番号ごとに音響モデルを更新する場合に比べ、更新のための学習量が増えるからである。
また、電話番号ごとの音声に対する認識結果を利用して電話番号ごとの言語モデルを更新することにより、電話番号ごとに話題が異なる場合に、当該話題に特化して言語モデルを更新することができる。
以上、本発明の好適な実施形態について説明したが、本発明は上記実施形態に限定されないことは言うまでもない。
例えば、上記実施形態における電話番号の代わりに、SIMカード(Subscriber Identity Module Card)におけるIMSI(International Mobile Subscriber Identity)番号を用いることができる。
1,2…音声認識システム、100,150…電話機、102…音声入力部、104…音声送信部、106…番号検知部、108…番号通知部、110…モデル選択部、112…モデル格納部、114…音声認識部、116…モデル更新部、200,250,260…音声認識サーバ、202…音声受信部、204…番号判定部、206…モデル選択部、208…モデル格納部、210…音声認識部、212…モデル更新部、214…番号変換データ格納部、216…番号変換部、218…番号制御部、220…モード識別情報受信部、300…通信ネットワーク、400…加入者情報制御装置。

Claims (16)

  1. 一台の端末で複数の電話番号が利用可能な電話機と接続され、且つ前記電話機からの音声を文字に変換する音声認識サーバであって、
    前記電話機からの音声を受信する音声受信手段と、
    前記音声受信手段が受信した音声を文字に変換するために用いられる一つ以上の音響モデルおよび一つ以上の言語モデルを格納するモデル格納手段と、
    前記電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を判定する番号判定手段と、
    前記現在発信番号および前記他番号に基づき前記モデル格納手段に格納された音響モデルを選択し、且つ前記現在発信番号に基づき前記モデル格納手段に格納された言語モデルを選択するモデル選択手段と、
    前記モデル選択手段が選択した音響モデルおよび言語モデルに基づき、前記音声受信手段が受信した音声を文字に変換する音声認識手段と、
    を備えることを特徴とする音声認識サーバ。
  2. 前記モデル格納手段は、一つの電話機で利用可能な全ての電話番号に対して共通の音響モデルを格納し、
    前記モデル選択手段は、前記一つの電話機における何れの前記現在発信番号および前記他番号に基づいても、前記共通の音響モデルを選択する、
    ことを特徴とする請求項1に記載の音声認識サーバ。
  3. 前記一つの電話機からの全ての音声を利用して前記共通の音響モデルを更新する音響モデル更新手段を更に備えることを特徴とする請求項2に記載の音声認識サーバ。
  4. 前記一つの電話機からの全ての音声のうち前記電話番号ごとの音声に対する認識結果を利用して、当該電話番号ごとの言語モデルを更新する言語モデル更新手段を更に備えることを特徴とする請求項1に記載の音声認識サーバ。
  5. 前記一つの電話機で利用可能な前記複数の電話番号と、当該電話機のユーザ識別情報と、を対応付けて格納するデータ格納手段を更に備え、
    前記モデル選択手段は、前記現在発信番号および前記他番号に基づき前記データ格納手段に格納されたユーザ識別情報を選択し、且つ当該選択したユーザ識別情報に基づき前記モデル格納手段に格納された音響モデルを選択することを特徴とする請求項1〜4の何れか1項に記載の音声認識サーバ。
  6. 前記データ格納手段に格納された前記複数の電話番号と前記ユーザ識別情報との間の対応関係において、追加、変更、または削除の処理を行う対応関係制御手段を更に備えることを特徴とする請求項5に記載の音声認識サーバ。
  7. 前記音声受信手段は、前記モデル選択手段が前記音響モデルおよび前記言語モデルを選択するために参照するモード識別情報を更に受信し、
    前記モデル選択手段は、前記モード識別情報に基づき前記音響モデルおよび前記言語モデルを選択することを特徴とする請求項1〜6の何れか1項に記載の音声認識サーバ。
  8. 前記音声受信手段が前記モード識別情報を複数受信した場合に、前記モデル選択手段は、優先順位の高いモード識別情報に基づき前記音響モデルおよび前記言語モデルを選択することを特徴とする請求項7に記載の音声認識サーバ。
  9. 前記音声受信手段は、前記電話機のユーザの属性情報を更に受信し、
    前記モデル選択手段は、前記属性情報を更に参照し前記音響モデルおよび前記言語モデルを選択することを特徴とする請求項1〜6の何れか1項に記載の音声認識サーバ。
  10. 音声を文字に変換する音声認識サーバと接続され、且つ一台の端末で複数の電話番号が利用可能な電話機であって、
    ユーザからの音声を前記音声認識サーバに送信する音声送信手段と、
    当該電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を検知する番号検知手段と、
    前記現在発信番号および前記他番号を前記音声認識サーバに通知する番号通知手段と、
    を備えることを特徴とする電話機。
  11. 一台の端末で複数の電話番号が利用可能な電話機、および前記電話機からの音声を文字に変換する音声認識サーバを備えた音声認識システムであって、
    前記電話機は、
    ユーザからの音声を前記音声認識サーバに送信する音声送信手段と、
    当該電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を検知する番号検知手段と、
    前記現在発信番号および前記他番号を前記音声認識サーバに通知する番号通知手段と、
    を備え、
    前記音声認識サーバは、
    前記電話機からの音声を受信する音声受信手段と、
    前記音声受信手段が受信した音声を文字に変換するために用いられる一つ以上の音響モデルおよび一つ以上の言語モデルを格納するモデル格納手段と、
    前記電話機の前記番号通知手段からの通知に基づき、前記現在発信番号および前記他番号を判定する番号判定手段と、
    前記現在発信番号および前記他番号に基づき前記モデル格納手段に格納された音響モデルを選択し、且つ前記現在発信番号に基づき前記モデル格納手段に格納された言語モデルを選択するモデル選択手段と、
    前記モデル選択手段が選択した音響モデルおよび言語モデルに基づき、前記音声受信手段が受信した音声を文字に変換する音声認識手段と、
    を備えることを特徴とする音声認識システム。
  12. 一台の端末で複数の電話番号が利用可能な電話機と接続され、且つ前記電話機からの音声を文字に変換する音声認識サーバにおける音声認識方法であって、
    前記音声認識サーバのモデル格納手段が、前記電話機からの音声を文字に変換するために用いられる一つ以上の音響モデルおよび一つ以上の言語モデルを格納し、
    前記音声認識サーバの音声受信手段が、前記電話機からの音声を受信する音声受信ステップと、
    前記音声認識サーバの番号判定手段が、前記電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を判定する番号判定ステップと、
    前記音声認識サーバのモデル選択手段が、前記現在発信番号および前記他番号に基づき前記モデル格納手段に格納された音響モデルを選択し、且つ前記現在発信番号に基づき前記モデル格納手段に格納された言語モデルを選択するモデル選択ステップと、
    前記音声認識サーバの音声認識手段が、前記モデル選択手段が選択した音響モデルおよび言語モデルに基づき、前記音声受信手段が受信した音声を文字に変換する音声認識ステップと、
    を備えることを特徴とする音声認識方法。
  13. 一台の端末で複数の電話番号が利用可能な電話機であって、
    ユーザからの音声を入力する音声入力手段と、
    当該電話機の現在の発信電話番号である現在発信番号、および前記複数の電話番号のうち前記現在発信番号以外の電話番号である他番号を検知する番号検知手段と、
    前記音声入力手段が入力した音声を文字に変換するために用いられる音響モデルおよび言語モデルを格納するモデル格納手段と、
    前記現在発信番号および前記他番号に基づき前記モデル格納手段に格納された音響モデルを選択し、且つ前記現在発信番号に基づき前記モデル格納手段に格納された言語モデルを選択するモデル選択手段と、
    前記モデル選択手段が選択した音響モデルおよび言語モデルに基づき、前記音声入力手段が入力した音声を文字に変換する音声認識手段と、
    を備えることを特徴とする電話機。
  14. 前記モデル格納手段は、当該電話機で利用可能な全ての電話番号に対して共通の音響モデルを格納し、
    前記モデル選択手段は、当該電話機における何れの前記現在発信番号および前記他番号に基づいても、前記共通の音響モデルを選択する、
    ことを特徴とする請求項13に記載の電話機。
  15. 前記ユーザからの全ての音声を利用して前記共通の音響モデルを更新する音響モデル更新手段を更に備えることを特徴とする請求項14に記載の電話機。
  16. 前記ユーザからの全ての音声のうち前記電話番号ごとの音声に対する認識結果を利用して、当該電話番号ごとの言語モデルを更新する言語モデル更新手段を更に備えることを特徴とする請求項13に記載の電話機。
JP2009020178A 2009-01-30 2009-01-30 音声認識サーバ、電話機、音声認識システム、および音声認識方法 Expired - Fee Related JP5059036B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2009020178A JP5059036B2 (ja) 2009-01-30 2009-01-30 音声認識サーバ、電話機、音声認識システム、および音声認識方法
US12/693,796 US8238525B2 (en) 2009-01-30 2010-01-26 Voice recognition server, telephone equipment, voice recognition system, and voice recognition method
EP10152046.8A EP2219355A3 (en) 2009-01-30 2010-01-29 Voice recognition server, telephone equipment, voice recognition system, and voice recognition method
CN2010101085352A CN101794577B (zh) 2009-01-30 2010-01-29 声音识别服务器、电话机、声音识别系统以及声音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009020178A JP5059036B2 (ja) 2009-01-30 2009-01-30 音声認識サーバ、電話機、音声認識システム、および音声認識方法

Publications (2)

Publication Number Publication Date
JP2010175967A true JP2010175967A (ja) 2010-08-12
JP5059036B2 JP5059036B2 (ja) 2012-10-24

Family

ID=42124431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009020178A Expired - Fee Related JP5059036B2 (ja) 2009-01-30 2009-01-30 音声認識サーバ、電話機、音声認識システム、および音声認識方法

Country Status (4)

Country Link
US (1) US8238525B2 (ja)
EP (1) EP2219355A3 (ja)
JP (1) JP5059036B2 (ja)
CN (1) CN101794577B (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190035454A (ko) * 2017-09-26 2019-04-03 주식회사 케이티 음성인식 서비스를 제공하는 단말, 서버 및 방법
JP2019152816A (ja) * 2018-03-06 2019-09-12 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法
CN110570843A (zh) * 2019-06-28 2019-12-13 北京蓦然认知科技有限公司 一种用户语音识别方法和装置

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2225870A4 (en) * 2007-12-14 2011-08-17 Promptu Systems Corp AUTOMATIC VEHICLE RECALL AND PREPARATION SYSTEM AND METHOD
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
CN105453080A (zh) * 2013-08-30 2016-03-30 英特尔公司 用于虚拟个人助理的可扩展上下文感知的自然语言交互
KR20150031984A (ko) * 2013-09-17 2015-03-25 한국전자통신연구원 디바이스 구분 음향모델 누적 적응을 이용한 음성인식 시스템 및 방법
CN103700371B (zh) * 2013-12-13 2017-10-20 江苏大学 一种基于声纹识别的来电身份识别系统及其识别方法
KR102225404B1 (ko) * 2014-05-23 2021-03-09 삼성전자주식회사 디바이스 정보를 이용하는 음성인식 방법 및 장치
US10008199B2 (en) 2015-08-22 2018-06-26 Toyota Motor Engineering & Manufacturing North America, Inc. Speech recognition system with abbreviated training
US10896681B2 (en) 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
JP6920153B2 (ja) * 2017-09-27 2021-08-18 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法
CN113450785B (zh) * 2020-03-09 2023-12-19 上海擎感智能科技有限公司 车载语音处理的实现方法、系统、介质及云端服务器

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0228700A (ja) * 1988-07-18 1990-01-30 Ricoh Co Ltd 音声ダイヤリング装置
JPH10190842A (ja) * 1996-12-27 1998-07-21 Hitachi Ltd 音声対話システム
JP2000125006A (ja) * 1998-10-19 2000-04-28 Ntt Data Corp 音声認識装置、音声認識方法、及び電話自動応答装置
JP2000125031A (ja) * 1998-10-13 2000-04-28 Brother Ind Ltd 通信装置
JP2000347684A (ja) * 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> 音声認識システム
JP2005340962A (ja) * 2004-05-24 2005-12-08 Ntt Docomo Inc 移動通信システム及び移動通信装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010590A (ja) 1998-06-25 2000-01-14 Oki Electric Ind Co Ltd 音声認識装置およびその制御方法
CN1429040A (zh) * 2001-12-25 2003-07-09 声硕科技股份有限公司 可群呼式语音发信息系统
JP4466665B2 (ja) * 2007-03-13 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0228700A (ja) * 1988-07-18 1990-01-30 Ricoh Co Ltd 音声ダイヤリング装置
JPH10190842A (ja) * 1996-12-27 1998-07-21 Hitachi Ltd 音声対話システム
JP2000125031A (ja) * 1998-10-13 2000-04-28 Brother Ind Ltd 通信装置
JP2000125006A (ja) * 1998-10-19 2000-04-28 Ntt Data Corp 音声認識装置、音声認識方法、及び電話自動応答装置
JP2000347684A (ja) * 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> 音声認識システム
JP2005340962A (ja) * 2004-05-24 2005-12-08 Ntt Docomo Inc 移動通信システム及び移動通信装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190035454A (ko) * 2017-09-26 2019-04-03 주식회사 케이티 음성인식 서비스를 제공하는 단말, 서버 및 방법
KR102549204B1 (ko) * 2017-09-26 2023-06-30 주식회사 케이티 음성인식 서비스를 제공하는 단말, 서버 및 방법
JP2019152816A (ja) * 2018-03-06 2019-09-12 株式会社日立情報通信エンジニアリング 通話音声処理システム及び通話音声処理方法
CN110570843A (zh) * 2019-06-28 2019-12-13 北京蓦然认知科技有限公司 一种用户语音识别方法和装置
CN110570843B (zh) * 2019-06-28 2021-03-05 北京蓦然认知科技有限公司 一种用户语音识别方法和装置

Also Published As

Publication number Publication date
US20100195806A1 (en) 2010-08-05
JP5059036B2 (ja) 2012-10-24
CN101794577A (zh) 2010-08-04
CN101794577B (zh) 2012-10-03
EP2219355A3 (en) 2014-06-11
EP2219355A2 (en) 2010-08-18
US8238525B2 (en) 2012-08-07

Similar Documents

Publication Publication Date Title
JP5059036B2 (ja) 音声認識サーバ、電話機、音声認識システム、および音声認識方法
US11349991B2 (en) Systems and methods to present voice message information to a user of a computing device
CN106710596B (zh) 回答语句确定方法及装置
CN102971725B (zh) 语音输入的字词级纠正
US8843164B2 (en) Method for creating short message and portable terminal using the same
US20080317240A1 (en) Alpha character support and translation in dialer
US8155278B2 (en) Communication method and apparatus for phone having voice recognition function
US20080070604A1 (en) Method of managing a language information for a text input and method of inputting a text and a mobile terminal
JP2008544629A (ja) 文字メッセージに含まれている電話番号にハイパーリンク機能を提供する移動通信端末機及びその方法
KR20050094830A (ko) 문자 메시지에 포함되어 있는 단어들을 통해 업데이트될 수있는 사전을 지니는 통신 장치
WO2009020342A2 (en) Method for storing telephone number by automatically analyzing message and mobile terminal executing the method
US8385531B2 (en) Performing routing of a phone call based on mutual contacts of a contact list
CN106681860A (zh) 一种数据备份方法及数据备份装置
US20130244627A1 (en) Method for providing phone book service and associated electronic device thereof
KR100920442B1 (ko) 휴대 단말기에서 정보 검색 방법
US8589820B2 (en) Mobile terminal and method for retrieving phone number therein
US8750840B2 (en) Directory assistance information via executable script
CN108595141A (zh) 语音输入方法及装置、计算机装置和计算机可读存储介质
CN107645604B (zh) 一种通话处理方法及移动终端
US8417291B2 (en) Method and apparatus for managing phonebook in a portable terminal
US7664498B2 (en) Apparatus, method, and program for read out information registration, and portable terminal device
KR101072659B1 (ko) 전화번호를 이용한 부분 디렉토리정보 제공 장치 및 그 방법
JP2007066051A (ja) メールアドレス変更通知システム
KR101564577B1 (ko) 단말장치 및 스마트카드 및 수신 메시지 처리 방법
KR100620001B1 (ko) 이동 통신 단말기에서 주소록 관리 장치 및 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120410

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120619

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120801

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5059036

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees