JP4962416B2 - 音声認識システム - Google Patents

音声認識システム Download PDF

Info

Publication number
JP4962416B2
JP4962416B2 JP2008145242A JP2008145242A JP4962416B2 JP 4962416 B2 JP4962416 B2 JP 4962416B2 JP 2008145242 A JP2008145242 A JP 2008145242A JP 2008145242 A JP2008145242 A JP 2008145242A JP 4962416 B2 JP4962416 B2 JP 4962416B2
Authority
JP
Japan
Prior art keywords
character
data
information
voice
character information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008145242A
Other languages
English (en)
Other versions
JP2009294269A (ja
Inventor
敦典 坂井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008145242A priority Critical patent/JP4962416B2/ja
Publication of JP2009294269A publication Critical patent/JP2009294269A/ja
Application granted granted Critical
Publication of JP4962416B2 publication Critical patent/JP4962416B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声を表す音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う音声認識システムに関する。
音声を表す音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う音声認識システムが知られている。この音声認識システムは、予め多数の文字情報を記憶している。そして、音声認識システムは、記憶している文字情報に基づいて上記音声認識処理を行う。
これによれば、音声認識処理を行うことによって音声情報から変換された文字情報が表す文字列がその音声情報が表す音声を実際に表している確率を、文字情報を用いることなく音声のみに基づいて音声認識処理を行う場合よりも高めることができる。即ち、より高い精度にて音声認識処理を行うことができる。
ところで、会話においては、分野(例えば、業務分野及び学問分野等)毎にその分野に特有の用語及び言い回しが用いられる。そこで、この種の音声認識システムの一つとして、特許文献1に記載の音声認識システムは、分野毎に文字情報を予め記憶している。この音声認識システムによれば、ユーザにより選択された分野の文字情報に基づいて音声認識処理を行うことにより、より高い精度にて音声認識処理を行うことができる。
特許第3961780号公報
しかしながら、上記音声認識システムにおいては、分野毎に比較的多数の文字情報を予め記憶させておかなければ、高い精度にて音声認識処理を行うことができないという問題があった。
このため、本発明の目的は、上述した課題である「分野毎に比較的多数の文字情報を予め記憶させておかなければ、高い精度にて音声認識処理を行うことができないこと」を解決することが可能な音声認識システムを提供することにある。
かかる目的を達成するため本発明の一形態である音声認識システムは、
分野毎に分類されたキーワードを記憶するキーワード記憶手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、を備え、
音声を表す音声情報と、上記分野識別情報と、を受け付けるとともに、当該受け付けた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行うように構成される。
また、本発明の他の形態である音声認識方法は、
分野毎に分類されたキーワードを記憶装置に記憶させるキーワード記憶処理工程と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶装置に記憶させる文字情報記憶処理工程と、を含み、
音声を表す音声情報と、上記分野識別情報と、を受け付けるとともに、当該受け付けた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う方法である。
また、本発明の他の形態である文字情報蓄積装置は、
分野毎に分類されたキーワードを記憶するキーワード記憶手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、を備え、
上記文字情報記憶処理手段は、音声情報を上記データとして取得するように構成され、且つ、当該取得した音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換することにより、当該取得した音声情報から前記文字情報を抽出するように構成される。
また、本発明の他の形態である文字情報蓄積プログラムは、
記憶装置を備える文字情報蓄積装置に、
分野毎に分類されたキーワードを上記記憶装置に記憶させるキーワード記憶処理手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて上記記憶装置に記憶させる文字情報記憶処理手段と、を実現させるとともに、
上記文字情報記憶処理手段は、音声情報を上記データとして取得するように構成され、且つ、当該取得した音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換することにより、当該取得した音声情報から前記文字情報を抽出するように構成される。
本発明は、以上のように構成されることにより、分野毎に比較的多数の文字情報が予め記憶されていない場合であっても比較的高い精度にて音声認識処理を行うことができる。
本発明の一形態である音声認識システムは、
分野毎に分類されたキーワードを記憶するキーワード記憶手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、を備え、
音声を表す音声情報と、上記分野識別情報と、を受け付けるとともに、当該受け付けた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行うように構成される。
これによれば、音声認識システムは、キーワードと対応付けられたデータから抽出した文字情報を、分野毎に記憶する。そして、音声認識システムは、分野毎に記憶された文字情報に基づいて音声認識処理を行う。この結果、音声認識システムは、分野毎に比較的多数の文字情報が予め記憶されていない場合であっても、比較的高い精度にて音声認識処理を行うことができる。
この場合、
上記文字情報記憶処理手段は、音声情報を上記データとして取得するように構成され、且つ、上記音声認識処理を行うことによって当該取得した音声情報を文字情報に変換することにより、当該取得した音声情報から上記文字情報を抽出するように構成されることが好適である。
これによれば、音声認識システムは、音声情報が表す音声(即ち、話し言葉)を文字列により表した文字情報を記憶(蓄積)する。これにより、音声認識システムは、より一層高い精度にて音声認識処理を行うことができる。
この場合、
上記文字情報記憶処理手段は、上記音声認識処理を行うことによって上記音声情報から変換された文字情報が表す文字列が、その音声情報が表す音声を実際に表している確率を表すパラメータである信頼度を算出し、上記変換された文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を記憶するように構成されることが好適である。
これによれば、音声認識システムは、音声認識処理を行うことによって変換(取得)された文字情報のうちの、信頼度が高い部分のみを記憶(蓄積)する。これにより、音声認識システムは、より一層高い精度にて音声認識処理を行うことができる。
この場合、
上記文字情報記憶処理手段は、文字情報を上記データとして取得するように構成され、且つ、当該取得した文字情報から予め定められた部分の文字情報を抽出するように構成されることが好適である。
この場合、
上記音声認識システムは、
上記受け付けられた分野識別情報と対応付けて記憶されている文字情報に基づいて、単語間の相関を表す言語モデルを作成し、当該作成した言語モデルに基づいて上記音声認識処理を行うように構成されることが好適である。
この場合、
上記音声認識システムは、
上記受け付けられた分野識別情報と対応付けて新たに記憶された文字情報の数が予め設定された更新用閾値数以上となった場合、上記言語モデルを作成するように構成されることが好適である。
この場合、
上記文字情報記憶処理手段は、上記取得したデータが、当該データを取得する基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶されているキーワードを、予め設定された第1の閾値数以上含む場合に、当該データから抽出した文字情報を当該分野識別情報と対応付けて記憶するように構成されることが好適である。
これによれば、音声認識システムは、ある分野識別情報と対応付けて記憶されているキーワードを、第1の閾値数以上含まないデータから抽出した文字情報をその分野識別情報と対応付けて記憶しない。従って、分野識別情報と対応付けて記憶される文字情報が、その分野識別情報により識別される分野と比較的強い相関を有する可能性を高めることができる。これにより、音声認識システムは、より一層高い精度にて音声認識処理を行うことができる。
この場合、
上記文字情報記憶処理手段は、上記取得したデータが、当該データを取得する基となったキーワードが属する分野を識別する分野識別情報である第1の分野識別情報と対応付けて記憶されているキーワードを、上記第1の閾値数よりも少ない数だけ含み、且つ、上記取得したデータが、当該第1の分野識別情報以外の第2の分野識別情報と対応付けて記憶されているキーワードを予め設定された第2の閾値数以上含む場合、当該データから抽出した文字情報を当該第2の分野識別情報と対応付けて記憶するように構成されることが好適である。
この場合、
上記文字情報記憶処理手段は、上記取得したデータが、当該データを取得する基となったキーワードが属する分野を識別する分野識別情報である第1の分野識別情報と対応付けて記憶されているキーワードを、上記第1の閾値数よりも少ない数だけ含み、且つ、上記取得したデータが、複数の分野のそれぞれに対して、その分野に分類されたキーワードを上記第2の閾値数以上含む場合、当該取得したデータが含むキーワードの数が最大となるキーワードが属する分野を識別する分野識別情報と、当該データから抽出した文字情報を対応付けて記憶するように構成されることが好適である。
この場合、
上記文字情報記憶処理手段は、キーワードを受信した場合にそのキーワードに対応付けられたデータを送信するサーバ装置を特定するためのサーバ装置特定情報を出力する検索サーバ装置へ、上記記憶されているキーワードを送信し、当該検索サーバ装置から出力されたサーバ装置特定情報により特定されるサーバ装置から上記データを取得するように構成されることが好適である。
また、本発明の他の形態である音声認識方法は、
分野毎に分類されたキーワードを記憶装置に記憶させるキーワード記憶処理工程と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶装置に記憶させる文字情報記憶処理工程と、を含み、
音声を表す音声情報と、上記分野識別情報と、を受け付けるとともに、当該受け付けた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う方法である。
この場合、
上記文字情報記憶処理工程は、音声情報を上記データとして取得するように構成され、且つ、上記音声認識処理を行うことによって当該取得した音声情報を文字情報に変換することにより、当該取得した音声情報から上記文字情報を抽出するように構成されることが好適である。
この場合、
上記文字情報記憶処理工程は、上記音声認識処理を行うことによって上記音声情報から変換された文字情報が表す文字列が、その音声情報が表す音声を実際に表している確率を表すパラメータである信頼度を算出し、上記変換された文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を上記記憶装置に記憶させるように構成されることが好適である。
また、本発明の他の形態である文字情報蓄積装置は、
分野毎に分類されたキーワードを記憶するキーワード記憶手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、を備え、
上記文字情報記憶処理手段は、音声情報を上記データとして取得するように構成され、且つ、当該取得した音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換することにより、当該取得した音声情報から前記文字情報を抽出するように構成される。
この場合、
上記文字情報記憶処理手段は、上記音声情報から変換された文字情報が表す文字列が、その音声情報が表す音声を実際に表している確率を表すパラメータである信頼度を算出し、上記変換された文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を記憶するように構成されることが好適である。
また、本発明の他の形態である文字情報蓄積プログラムは、
記憶装置を備える文字情報蓄積装置に、
分野毎に分類されたキーワードを上記記憶装置に記憶させるキーワード記憶処理手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて上記記憶装置に記憶させる文字情報記憶処理手段と、を実現させるとともに、
上記文字情報記憶処理手段は、音声情報を上記データとして取得するように構成され、且つ、当該取得した音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換することにより、当該取得した音声情報から前記文字情報を抽出するように構成される。
この場合、
上記文字情報記憶処理手段は、上記音声情報から変換された文字情報が表す文字列が、その音声情報が表す音声を実際に表している確率を表すパラメータである信頼度を算出し、上記変換された文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を記憶するように構成されることが好適である。
上述した構成を有する、音声認識方法、文字情報蓄積装置、又は、文字情報蓄積プログラム、の発明であっても、上記音声認識システムと同様の作用を有するために、上述した本発明の目的を達成することができる。
以下、本発明に係る、音声認識システム、音声認識方法、文字情報蓄積装置、及び、文字情報蓄積プログラム、の実施形態について図1〜図15を参照しながら説明する。
<実施形態>
図1に示したように、実施形態に係る音声認識システム1は、言語モデル作成サーバ(文字情報蓄積装置)10と、音声認識管理サーバ20と、音声認識利用端末30と、検索用ウェブサーバ(検索サーバ装置)41と、ウェブサーバ(サーバ装置)42と、ウェブサーバ(サーバ装置)43と、を含む。
言語モデル作成サーバ10、音声認識管理サーバ20及び音声認識利用端末30は、通信回線NW1を介して互いに通信可能に接続されている。本例では、言語モデル作成サーバ10、音声認識管理サーバ20及び音声認識利用端末30は、LAN(Local Area Network)を構成している。
また、検索用ウェブサーバ41、ウェブサーバ42及びウェブサーバ43は、通信回線NW2を介して互いに通信可能に接続されている。本例では、検索用ウェブサーバ41、ウェブサーバ42及びウェブサーバ43は、インターネットを構成している。また、言語モデル作成サーバ10、音声認識管理サーバ20及び音声認識利用端末30が構成するLANは、インターネットに接続されている。
言語モデル作成サーバ10は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク装置(HDD;Hard Disk Drive))及び通信装置を備えている。言語モデル作成サーバ10は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。音声認識管理サーバ20、検索用ウェブサーバ41、ウェブサーバ42及びウェブサーバ43のそれぞれも、言語モデル作成サーバ10と同様の構成を有している。
また、音声認識利用端末30は、パーソナルコンピュータ(PC;Personal Computer)であり、図示しないCPU、記憶装置(メモリ及びHDD)、通信装置、入力装置及び出力装置を備えている。音声認識利用端末30は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
更に、音声認識利用端末30は、入力装置を介して情報が入力されるように構成されている。本例では、入力装置は、マウス、キーボード及びマイクを含む。マイクは、周囲の音声を集音し、集音した音声を表す音声情報をCPUへ出力する。加えて、音声認識利用端末30は、出力装置を介して情報を出力するように構成されている。本例では、出力装置は、文字及び図形等からなる画像を表示するディスプレイを含む。
検索用ウェブサーバ41は、URL(Uniform Resource Locator)と、そのURLにより特定されるデータ(本例では、HTML(HyperText Markup Language)又はRSS(Really Simple Syndication)に従って記述された文字情報)から抽出された検索用の文字列を表す検索用情報と、を対応付けて予め記憶装置に記憶させている。なお、URLは、そのURLにより特定されるデータを送信するサーバ装置を特定するためのサーバ装置特定情報を含む情報である。
検索用ウェブサーバ41は、言語モデル作成サーバ10からキーワードを受信する。検索用ウェブサーバ41は、受信したキーワードを含む検索用情報と対応付けて記憶されているURLを検索する。検索用ウェブサーバ41は、複数のURLを含む検索結果を言語モデル作成サーバ10へ送信(出力)する。
各ウェブサーバ42,43は、URLにより特定されるデータの送信を要求する旨を表す情報を言語モデル作成サーバ10から受信する。各ウェブサーバ42,43は、その情報を受信すると、そのURLにより特定されるデータを言語モデル作成サーバ10へ送信する。
図2は、上記のように構成された音声認識システム1の機能を表すブロック図である。この機能は、言語モデル作成サーバ10のCPUが後述する図9〜図11に示したフローチャートにより表されるプログラム等を実行し、且つ、音声認識管理サーバ20及び音声認識利用端末30のそれぞれのCPUが図示しないプログラムを実行することにより、実現される。
この言語モデル作成サーバ10の機能は、キーワード記憶部(キーワード記憶手段)51と、データ取得部52と、データ分類処理部53と、文字情報記憶部54と、音声情報記憶部55と、音声認識処理部56と、フィルタ処理部57と、言語モデル作成部58と、言語モデル記憶部59と、を含む。なお、データ取得部52、データ分類処理部53、文字情報記憶部54、音声情報記憶部55、音声認識処理部56、及び、フィルタ処理部57は、文字情報記憶処理手段を構成している。
キーワード記憶部51は、分野毎に分類されたキーワードを言語モデル作成サーバ10の記憶装置に予め記憶させている(キーワード記憶処理工程)。具体的には、キーワード記憶部51は、図3に示したように、分野を識別する分野識別情報と、キーワード(キーワード(文字列)を表す情報)と、を対応付けて記憶させている。本例では、金融分野を識別する分野識別情報は「1」であり、医療分野を識別する分野識別情報は「2」である。
データ取得部52は、キーワード記憶部51に記憶されているキーワードを検索用ウェブサーバ41へ送信する。データ取得部52は、検索用ウェブサーバ41から検索結果を受信する。ここで、検索結果は、複数のURLを含む情報である。
データ取得部52は、受信した検索結果に含まれるURLにより特定されるウェブサーバ42,43へ、そのURLにより特定されるデータ(即ち、キーワードと対応付けられたデータ)の送信を要求する(データの送信を要求する旨を表す情報を送信する)。そして、データ取得部52は、ウェブサーバ42,43からデータ(本例では、HTML又はRSSに従って記述された文字情報)を受信する。
更に、データ取得部52は、受信したデータに、音声情報を含むデータ(WAVE形式のファイル、MP3(MPEG−1 Audio Layer 3)形式のファイル等)を特定するURLが含まれる場合には、そのURLにより特定される音声情報(データ)の送信を要求する。そして、データ取得部52は、ウェブサーバ42,43から音声情報を受信する。
データ分類処理部53は、データ取得部52により受信されたデータ(文字情報及び音声情報)を分野毎に分類する処理を行う。具体的には、データ分類処理部53は、データ取得部52により受信された文字情報から予め定められた部分の文字情報を抽出する。本例では、文字情報が表す文字列が、図4に示したように、HTMLに従って記述されている場合、データ分類処理部53は、title要素、及び、meta要素のうちの、name属性の値が「keywords」又は「description」である要素のcontent属性の値等を文字情報として抽出する。即ち、この例では、「国際金融入門」、「株式」、「債券」、「金融」、「市場」及び「株式と債券の相関に基づく国際金融入門」が抽出される。
また、文字情報が表す文字列が、図5に示したように、RSSに従って記述されている場合、データ分類処理部53は、title要素、及び、description要素等を文字情報として抽出する。即ち、この例では、「金融情報」、「金融情報を提供するサイトです」、「株式と債券の今後の動向」及び「今後の国際市場における株式と債券の動向についての講演」が抽出される。
そして、データ分類処理部53は、抽出した文字情報が表す文字列に含まれるキーワードの数(キーワード数)を算出し、算出したキーワード数に基づいて、その文字情報が属する分野を特定する。なお、この処理の詳細については後述する。また、データ分類処理部53は、他の要素(例えば、language要素等)の文字情報も用いて分野を特定してもよい。
文字情報記憶部54は、データ分類処理部53により、抽出された文字情報と、特定された分野を識別する分野識別情報と、を図6に示したように、互いに対応付けて言語モデル作成サーバ10の記憶装置に記憶させる。
音声情報記憶部55は、データ取得部52により受信された音声情報を、データ分類処理部53により特定された分野を識別する分野識別情報と対応付けて言語モデル作成サーバ10の記憶装置に記憶させる。
音声認識処理部56は、音声情報が新たに音声情報記憶部55に記憶されると、言語モデル記憶部59により言語モデル作成サーバ10の記憶装置に記憶させられている言語モデルを取得する。この言語モデルは、上記新たに記憶された音声情報と対応付けて記憶されている分野識別情報と対応付けて記憶されている言語モデルである。また、言語モデルは、1つの文において、ある単語が他の単語(例えば、直前の単語及び直後の単語等)とともに存在する確率(即ち、単語間の相関)を表す情報を含むモデルである。
音声認識処理部56は、予め記憶装置に記憶されている音響モデルと、取得した言語モデルと、に基づいて、音声情報記憶部55に新たに記憶された音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う。ここで、音響モデルは、音素と発音記号とを対応付ける情報を含むモデルである。
具体的には、音声認識処理部56は、変換する対象となる音声情報と音響モデルとに基づいて発音記号を生成する。そして、音声認識処理部56は、予め記憶装置に記憶されている単語辞書と、生成した発音記号と、に基づいて、その発音記号に対応する(その発音記号に近似する発音記号と対応付けて記憶されている)単語を取得し、取得した単語に基づいて変換候補としての文字情報を生成する。ここで、単語辞書は、単語(を表す文字情報)と発音記号とが互いに対応付けられた情報である。
そして、音声認識処理部56は、生成した変換候補(が表す文字列)内の単語毎に、その単語と対応付けて記憶されている発音記号と、上記生成した発音記号のうちの対応する部分と、が一致している程度を表す第1の評価値を算出する。
更に、音声認識処理部56は、生成した変換候補内の単語毎に、言語モデルに基づいて、その単語が、その変換候補が表す文字列(1つの文)において他の単語(例えば、直前の単語及び直後の単語等)とともに存在する確率を表す第2の評価値を、算出する。
そして、音声認識処理部56は、生成した変換候補内の単語毎に、第1の評価値及び第2の評価値に基づいて、第1の評価値が大きくなるほど大きくなり且つ第2の評価値が大きくなるほど大きくなる最終評価値を算出する。音声認識処理部56は、算出した最終評価値を1つの変換候補内のすべての単語にわたって平均した評価値平均値が最大となる変換候補を変換結果として選択する。なお、音声認識処理部56が変換候補を選択する処理は、本明細書に開示された処理以外の処理により置換されてもよい。
更に、音声認識処理部56は、変換結果として選択された文字情報が表す文字列内の単語毎に信頼度を算出する。信頼度は、当該単語を他の単語に置換した変換候補の評価値平均値と、変換結果の評価値平均値と、の差の絶対値が予め設定された閾値よりも小さくなる変換候補の数が多くなるほど小さくなる値である。即ち、信頼度は、音声認識処理を行うことによって音声情報から変換された文字情報が表す文字列が、その音声情報が表す音声を実際に表している確率を表すパラメータである。
そして、音声認識処理部56は、変換結果として選択された文字情報と、その文字情報が表す文字列内の各単語に対応付けられた信頼度と、を出力する。
フィルタ処理部57は、音声認識処理部56により変換(出力)された文字情報(変換結果)が表す文字列から、上記出力(算出)された信頼度が予め設定された閾値以下である(閾値以下の信頼度と対応付けられた)単語(部分)を除去する。例えば、図7の(A)に示した文字情報において、点線により囲まれた部分(この例では、「えー」、「馬車」及び「あー」)の信頼度が閾値以下である場合、フィルタ処理部57によって、図7の(B)に示したように、これらの部分が除去される。
文字情報記憶部54は、フィルタ処理部57により信頼度が閾値以下である部分が除去された文字情報(データ取得部52により取得された音声情報から抽出された文字情報)を、その文字情報の基となった音声情報と対応付けて音声情報記憶部55により記憶させられている分野識別情報と対応付けて言語モデル作成サーバ10の記憶装置に記憶させる。即ち、文字情報記憶部54は、信頼度が閾値よりも大きい部分を記憶装置に記憶させる。
言語モデル作成部58は、文字情報記憶部54に記憶されている文字情報に基づいて、分野毎に言語モデルを作成する。即ち、言語モデル作成部58は、ある分野識別情報と対応付けて記憶されている文字情報に基づいて言語モデルを作成し、作成した言語モデルとその分野識別情報とを対応付けて出力する。
言語モデル記憶部59は、言語モデル作成部58により出力された言語モデルを、その言語モデルと対応付けて出力された分野識別情報と対応付けて言語モデル作成サーバ10の記憶装置に記憶させる。
音声認識管理サーバ20の機能は、音声認識処理部61を含む。音声認識処理部61は、音声認識処理部56と同様の機能を有する。
音声認識処理部61は、音声認識利用端末30から音声認識処理開始要求を受信する。音声認識処理開始要求は、分野識別情報を含み且つ音声認識処理の実行の開始を要求する旨を表す情報である。即ち、音声認識処理部61は、分野識別情報を受け付ける。
音声認識処理部61は、音声認識処理開始要求を受信すると、言語モデル要求を言語モデル作成サーバ10へ送信する。言語モデル要求は、音声認識管理サーバ20が受信した音声認識処理開始要求に含まれる分野識別情報を含み、且つ、言語モデルの送信を要求する旨を表す情報である。
音声認識処理部61は、言語モデル作成サーバ10から言語モデルを受信する。音声認識処理部61は、言語モデルを受信すると、処理開始通知を音声認識利用端末30へ送信する。処理開始通知は、音声認識処理の実行を開始する旨を表す情報である。
更に、音声認識処理部61は、音声認識利用端末30から音声情報を受信する(受け付ける)。音声認識処理部61は、受信した言語モデルに基づいて、受信した音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う。音声認識処理部61は、変換された文字情報を音声認識利用端末30へ送信する。
また、音声認識処理部61は、音声認識利用端末30から音声認識処理終了要求を受信する。音声認識処理終了要求は、音声認識処理の実行の終了を要求する旨を表す情報である。音声認識処理部61は、音声認識処理終了要求を受信すると、音声認識処理の実行を終了する。
音声認識利用端末30の機能は、音声情報入力部71と、文字情報出力部72と、を含む。
音声情報入力部71は、入力装置を介してユーザUAから入力された分野識別情報を受け付ける。音声情報入力部71は、分野識別情報を受け付けると、受け付けた分野識別情報を含む音声認識処理開始要求を音声認識管理サーバ20へ送信する。
音声情報入力部71は、音声認識管理サーバ20から処理開始通知を受信すると、入力装置のマイクを介してユーザUAから入力された音声情報を受け付ける。音声情報入力部71は、受け付けた音声情報を音声認識管理サーバ20へ送信する。
文字情報出力部72は、音声認識管理サーバ20から文字情報を受信する。文字情報出力部72は、受信した文字情報を出力装置のディスプレイを介して出力する(文字情報を表す画像をディスプレイに表示させる)。
次に、上述した音声認識システム1の作動について説明する。
先ず、言語モデル作成サーバ10は、言語モデル作成サーバ10の記憶装置に記憶させているキーワードに基づいて分野毎の言語モデルを作成する。
より具体的に述べると、言語モデル作成サーバ10は、図8のシーケンス図に示したように、予め設定された複数の分野の中から1つの分野を選択する。そして、言語モデル作成サーバ10は、選択した分野を識別する分野識別情報と対応付けて記憶装置に記憶されているキーワードを検索用ウェブサーバ41へ送信する(ステップA1)。
検索用ウェブサーバ41は、言語モデル作成サーバ10からキーワードを受信すると、受信したキーワードを含む検索用情報と対応付けて記憶されているURLを検索する。検索用ウェブサーバ41は、複数のURLを含む検索結果を言語モデル作成サーバ10へ送信する(ステップB1)。
次いで、言語モデル作成サーバ10は、検索用ウェブサーバ41から検索結果を受信すると、受信した検索結果に含まれるURLにより特定されるウェブサーバ42,43のそれぞれへ、そのURLにより特定されるデータの送信を要求する旨を表す情報を送信する(ステップA2)。
各ウェブサーバ42,43は、URLにより特定されるデータの送信を要求する旨を表す情報を言語モデル作成サーバ10から受信すると、そのURLにより特定されるデータ(ここでは、文字情報(HTML又はRSSに従って記述された情報))を言語モデル作成サーバ10へ送信する(ステップC1)。
言語モデル作成サーバ10は、ウェブサーバ42,43からデータを受信する。そして、言語モデル作成サーバ10は、受信したデータに、音声情報を含むデータ(WAVE形式のファイル、MP3形式のファイル等)を特定するURLが含まれる場合には、そのURLにより特定される音声情報(データ)の送信を要求する旨を表す情報をウェブサーバ42,43へ送信する(ステップA2)。
各ウェブサーバ42,43は、URLにより特定されるデータの送信を要求する旨を表す情報を言語モデル作成サーバ10から受信すると、そのURLにより特定されるデータ(ここでは、音声情報(WAVE形式のファイル、MP3形式のファイル等))を言語モデル作成サーバ10へ送信する(ステップC1)。
そして、言語モデル作成サーバ10は、上記選択した分野を識別する分野識別情報に対応付けて記憶されている任意のキーワードが、ウェブサーバ42,43から受信した文字情報が表す文字列に含まれる数(キーワード数)を算出する。言語モデル作成サーバ10は、算出したキーワード数に基づいて、その文字情報が属する分野を特定する。なお、この処理の詳細については後述する。
更に、言語モデル作成サーバ10は、特定した分野を識別する分野識別情報と、その文字情報と、を対応付けて記憶装置に記憶させる。更に、言語モデル作成サーバ10が上記文字情報とともに音声情報を受信している場合、言語モデル作成サーバ10は、特定した分野を識別する分野識別情報と、その音声情報と、を対応付けて記憶装置に記憶させる(ステップA3)。
そして、言語モデル作成サーバ10は、音声情報が新たに記憶装置に記憶されると、その音声情報と対応付けて記憶される分野識別情報と対応付けて記憶されている言語モデルを取得する。なお、その分野識別情報と対応付けて言語モデルが記憶されていない場合、言語モデル作成サーバ10は、記憶装置に予め記憶されている基本言語モデルを言語モデルとして取得する。基本言語モデルは、分野に関係なく収集された文字情報に基づいて作成された言語モデルである。
言語モデル作成サーバ10は、記憶装置に記憶されている音響モデルと、取得した言語モデルと、に基づいて、上記新たに記憶された音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う(ステップA4)。更に、言語モデル作成サーバ10は、変換結果である文字情報と、その文字情報が表す文字列内の各単語に対応付けられた信頼度と、を出力する。
次いで、言語モデル作成サーバ10は、出力された文字情報(変換結果)が表す文字列から、信頼度が閾値以下である単語(部分)を除去する。即ち、言語モデル作成サーバ10は、出力された文字情報に対して、信頼度に基づくフィルタ処理を行う(ステップA5)。そして、言語モデル作成サーバ10は、フィルタ処理後の文字情報を、上記特定した分野を識別する分野識別情報と対応付けて記憶装置に記憶させる(ステップA6)。なお、ステップA1〜ステップA6の処理は、文字情報記憶処理工程に対応している。
次いで、言語モデル作成サーバ10は、ある分野識別情報と対応付けて記憶装置に新たに記憶された文字情報の数が予め設定された更新用閾値数以上である場合、その分野識別情報と対応付けて記憶されているすべての文字情報に基づいて言語モデルを作成する(ステップA7)。
そして、言語モデル作成サーバ10は、作成した言語モデルを、その言語モデルを作成する基となった文字情報と対応付けて記憶されている分野識別情報と対応付けて記憶装置に記憶させることにより、その分野識別情報により識別される分野の言語モデルを更新する(ステップA8)。
ここで、上記ステップA1、ステップA2及びステップA3の処理をより詳細に説明する。この処理は、図9にフローチャートにより示したデータ取得プログラムの処理である。なお、データ取得プログラムは、文字情報蓄積プログラムの一部を構成している。
言語モデル作成サーバ10のCPUは、このデータ取得プログラムの処理を開始すると、ステップ905にて、予め設定されている複数の分野の中から未だ選択されていない1つの分野を選択する。
次いで、CPUは、ステップ910にて、上記選択した分野を識別する分野識別情報と対応付けて記憶装置に記憶されている複数のキーワードの中から未だ選択されていない1つのキーワードを選択する。そして、CPUは、ステップ915にて、選択したキーワードを検索用ウェブサーバ41へ送信する。
その後、CPUは、ステップ920にて、検索用ウェブサーバ41から検索結果を受信するまで待機する。そして、CPUは、検索用ウェブサーバ41から検索結果を受信すると、「Yes」と判定してステップ925へ進み、受信した検索結果に含まれるURLにより特定されるウェブサーバ42,43のそれぞれへ、そのURLにより特定されるデータ(ここでは、文字情報(HTML又はRSSに従って記述された情報))の送信を要求する旨を表す情報を送信する。
更に、CPUは、ステップ930にて、ウェブサーバ42,43からデータを受信するまで待機する。CPUは、ウェブサーバ42,43からデータを受信すると、「Yes」と判定してステップ935へ進む。なお、CPUは、受信したデータに、音声情報を含むデータ(WAVE形式のファイル、MP3形式のファイル等)を特定するURLが含まれる場合には、そのURLにより特定される音声情報(データ)の送信を要求する旨を表す情報をウェブサーバ42,43へ送信し、そのデータをウェブサーバ42,43から受信する。
次いで、CPUは、受信したデータ(ここでは、文字情報(HTML又はRSSに従って記述された情報))が表す文字列が、上記選択した分野(即ち、データを取得(受信)する基となったキーワードが属する分野)を識別する分野識別情報と対応付けて記憶装置に記憶されている任意のキーワードを、第1の閾値数以上含むか否かを判定する。
いま、上記受信したデータが表す文字列が上記任意のキーワードを第1の閾値数以上含む場合を想定して説明を続ける。
この場合、CPUは、「Yes」と判定してステップ940に進み、その選択した分野を識別する分野識別情報と、上記受信したデータ(文字情報及び音声情報のそれぞれ)と、を対応付けて言語モデル作成サーバ10の記憶装置に記憶させる。
その後、CPUは、ステップ945にて、上記選択した分野を識別する分野識別情報(第1の分野識別情報)と対応付けて記憶されている文字情報及び音声情報の数であるデータ数を取得する。CPUは、取得したデータ数が予め設定された閾値数以上であるか否かを判定する。
そして、CPUは、取得したデータ数が予め設定された閾値数以上である場合、「Yes」と判定してステップ905に進み、上記設定されている複数の分野の中から未だ選択されていない1つの分野(次の分野)を選択する。そして、CPUは、上述した場合と同様に、ステップ910〜ステップ945の処理を行う。
一方、取得したデータ数が予め設定された閾値数よりも少ない場合、CPUは、「No」と判定してステップ910に進み、上記選択した分野を識別する分野識別情報と対応付けて記憶されている複数のキーワードの中から未だ選択されていない1つのキーワード(次のキーワード)を選択する。そして、CPUは、上述した場合と同様に、ステップ915〜ステップ945の処理を行う。
このような処理により、上記設定されている複数の分野のそれぞれに対して、その分野を識別する分野識別情報と対応付けて記憶されている文字情報及び音声情報の数が、上記閾値数以上となるまで、上述したデータの取得が行われる。
次に、言語モデル作成サーバ10が受信したデータが表す文字列が、上記選択した分野(即ち、データを取得する基となったキーワードが属する分野)を識別する分野識別情報(第1の分野識別情報)と対応付けて記憶装置に記憶されている任意のキーワードを第1の閾値数よりも少ない数だけ含む場合を想定して説明を続ける。
この場合、CPUは、ステップ935に進んだとき、「No」と判定してステップ950に進む。そして、CPUは、当該文字列が、上記選択した分野(第1の分野)以外の任意の1つの分野(他の分野)を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第2の閾値数以上含むか否かを判定する。
いま、この場合において、更に、当該文字列が、上記選択した分野(第1の分野)以外の1つの分野(第2の分野)を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第2の閾値数以上含み、且つ、第1の分野及び第2の分野以外の各分野を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第2の閾値数よりも少ない数だけ含む場合を想定して説明を続ける。
この場合、CPUは、ステップ950にて「Yes」と判定してステップ955に進み、上記文字列が、複数の分野のそれぞれに対して、その分野を識別する分野識別情報と対応付けて記憶されている任意のキーワード(その分野に分類されたキーワード)を第2の閾値数以上含むか否かを判定する。
上記仮定に従えば、CPUは、「No」と判定してステップ960に進み、第2の閾値数以上のキーワードを含む分野(ここでは、第2の分野)を識別する分野識別情報(第2の分野識別情報)と、文字情報及び音声情報と、を対応付けて記憶装置に記憶させる。そして、CPUは、上述した場合と同様に、ステップ945以降の処理を実行する。
次に、言語モデル作成サーバ10が受信したデータが表す文字列が、上記選択した分野(第1の分野)以外の複数の分野(第2の分野及び第3の分野)のそれぞれに対して、その分野を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第2の閾値数以上含む場合を想定して説明を続ける。
この場合、CPUは、ステップ955に進んだとき、「Yes」と判定してステップ965に進み、上記文字列が含むキーワードの数が最大となるキーワードが属する分野を識別する分野識別情報と、文字情報及び音声情報と、を対応付けて記憶装置に記憶させる。そして、CPUは、上述した場合と同様に、ステップ945以降の処理を実行する。
次に、言語モデル作成サーバ10が受信したデータが表す文字列が、上記選択した分野(第1の分野)以外の任意の1つの分野を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第2の閾値数よりも少ない数だけ含む場合を想定して説明を続ける。
この場合、CPUは、ステップ950に進んだとき、「No」と判定してステップ945に直接進み、ステップ945以降の処理を実行する。即ち、この場合、CPUは、文字情報及び音声情報を記憶装置に記憶させない。
また、上記ステップA4、ステップA5及びステップA6の処理をより詳細に説明する。この処理は、図10にフローチャートにより示した音声情報処理プログラムの処理である。なお、音声情報処理プログラムは、文字情報蓄積プログラムの一部を構成している。
言語モデル作成サーバ10のCPUは、この音声情報処理プログラムの処理を開始すると、ステップ1005にて、記憶装置に新たに音声情報が記憶されるまで待機する。
そして、CPUは、記憶装置に新たに音声情報が記憶されると、「Yes」と判定してステップ1010に進み、その音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う。更に、CPUは、変換結果である文字情報と、その文字情報が表す文字列内の各単語に対応付けられた信頼度と、を出力する。
次いで、CPUは、ステップ1015にて、上記出力された文字情報(変換結果)が表す文字列から、信頼度が閾値以下である単語(部分)を除去する。そして、CPUは、ステップ1020にて、信頼度が閾値以下である単語が除去された文字情報を、上記音声情報と対応付けて記憶されている分野識別情報と対応付けて記憶装置に記憶させる。
その後、CPUは、ステップ1005へ戻り、ステップ1005〜ステップ1020の処理を繰り返し実行する。
また、上記ステップA7及びステップA8の処理をより詳細に説明する。この処理は、図11にフローチャートにより示した言語モデル作成プログラムの処理である。言語モデル作成サーバ10のCPUは、この言語モデル作成プログラムの処理を開始すると、ステップ1105にて、ある分野識別情報と対応付けて記憶装置に新たに記憶された文字情報の数が、更新用閾値数以上となるまで待機する。
そして、ある分野識別情報と対応付けて記憶装置に新たに記憶された文字情報の数が、更新用閾値数以上となると、CPUは、「Yes」と判定してステップ1110に進み、その分野識別情報と対応付けて記憶装置に記憶されているすべての文字情報に基づいて言語モデルを作成する。
そして、CPUは、ステップ1115にて、作成した言語モデルを、その言語モデルを作成する基となった文字情報と対応付けて記憶されている分野識別情報と対応付けて記憶装置に記憶させる。これにより、その分野識別情報により識別される分野の言語モデルが更新される。
その後、CPUは、ステップ1105へ戻り、ステップ1105〜ステップ1115の処理を繰り返し実行する。
このように、文字情報が更新用閾値数だけ取得される毎に言語モデルの更新を行うことにより、すべての文字情報の取得が完了するまで言語モデルの更新を行わない場合よりも、音声情報に基づいて取得される文字情報の認識精度を高めることができる。この結果、より高い精度にて音声認識処理を行うことができる。
次に、音声認識管理サーバ20は、言語モデル作成サーバ10により作成された言語モデルに基づいて、音声認識利用端末30のユーザUAにより入力された音声情報を文字情報に変換する音声認識処理を行う。
より具体的に述べると、音声認識利用端末30は、図12のシーケンス図に示したように、分野識別情報の入力を受け付ける(ステップD1)。本例では、音声認識利用端末30は、分野識別情報の入力をユーザUAに促す画像をディスプレイに表示させる。
そして、ユーザUAは、入力装置(本例では、マウス及びキーボード)を介して分野識別情報を音声認識利用端末30に入力する。これにより、音声認識利用端末30は、入力された分野識別情報を含む音声認識処理開始要求を音声認識管理サーバ20へ送信する(ステップD2)。
音声認識管理サーバ20は、音声認識利用端末30から音声認識処理開始要求を受信すると、受信した音声認識処理開始要求に含まれる分野識別情報を含む言語モデル要求を言語モデル作成サーバ10へ送信する(ステップE1)。
言語モデル作成サーバ10は、音声認識管理サーバ20から言語モデル要求を受信すると、受信した言語モデル要求に含まれる分野識別情報と対応付けて記憶されている最新の言語モデルを音声認識管理サーバ20へ送信する(ステップA9)。
音声認識管理サーバ20は、言語モデル作成サーバ10から言語モデルを受信すると、処理開始通知を音声認識利用端末30へ送信する(ステップE2)。
音声認識利用端末30は、音声認識管理サーバ20から処理開始通知を受信すると、音声情報の入力を受け付ける(ステップD3)。本例では、音声認識利用端末30は、音声情報の入力をユーザUAに促す画像をディスプレイに表示させる。
そして、ユーザUAは、入力装置(本例では、マイク)を介して音声情報を音声認識利用端末30に入力する。これにより、音声認識利用端末30は、入力された音声情報を音声認識管理サーバ20へ送信する(ステップD4)。
音声認識管理サーバ20は、音声認識利用端末30から音声情報を受信すると、受信した音声情報と、言語モデル作成サーバ10から受信した言語モデルと、に基づいて音声認識処理を行う(ステップE3)。そして、音声認識管理サーバ20は、音声認識処理を実行することにより出力された文字情報(変換結果)を音声認識利用端末30へ送信する(ステップE4)。
音声認識利用端末30は、音声認識管理サーバ20から文字情報を受信すると、受信した文字情報を表す画像をディスプレイに表示させる(ステップD5)。
更に、音声認識利用端末30は、音声認識処理を終了させる旨を表す音声認識処理終了指示の入力を受け付ける。
そして、ユーザUAは、入力装置(本例では、マウス及びキーボード)を介して音声認識処理終了指示を音声認識利用端末30に入力する。これにより、音声認識利用端末30は、音声認識処理終了要求を音声認識管理サーバ20へ送信する(ステップD6)。
音声認識管理サーバ20は、音声認識利用端末30から音声認識処理終了要求を受信すると、音声認識処理の実行を終了する(ステップE5)。
以上、説明したように、本発明による音声認識システムの実施形態によれば、音声認識システム1は、キーワードと対応付けられたデータから抽出した文字情報を、分野毎に記憶する。そして、音声認識システム1は、分野毎に記憶された文字情報に基づいて音声認識処理を行う。この結果、音声認識システム1は、分野毎に比較的多数の文字情報が予め記憶されていない場合であっても、比較的高い精度にて音声認識処理を行うことができる。
また、上記実施形態において、音声認識システム1は、音声情報をデータとして取得し、且つ、音声認識処理を行うことによって、取得した音声情報を文字情報に変換し、変換した文字情報を分野識別情報と対応付けて言語モデル作成サーバ10の記憶装置に記憶させる。即ち、音声認識システム1は、音声情報が表す音声(即ち、話し言葉)を文字列により表した文字情報を記憶(蓄積)する。
そして、言語モデル作成サーバ10は、その文字情報に基づいて言語モデルを作成する。更に、音声認識管理サーバ20は、その言語モデルに基づいて音声認識処理を行う。これにより、音声認識システム1は、より一層高い精度にて音声認識処理を行うことができる。
更に、上記実施形態において、音声認識システム1は、信頼度を算出し、音声認識処理を行うことにより変換された文字情報のうちの、算出した信頼度が閾値よりも大きい部分を記憶するように構成されている。これによれば、音声認識システム1は、音声認識処理を行うことによって変換(取得)された文字情報のうちの、信頼度が高い部分のみを記憶(蓄積)する。これにより、音声認識システム1は、より一層高い精度にて音声認識処理を行うことができる。
また、上記実施形態において、音声認識システム1は、ウェブサーバ42,43から取得したデータが、そのデータを取得する基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶されているキーワードを、第1の閾値数以上含む場合に、当該データから抽出した文字情報を記憶するように構成されている。
これによれば、音声認識システム1は、ある分野識別情報と対応付けて記憶されているキーワードを、第1の閾値数以上含まないデータから抽出した文字情報を、その分野識別情報と対応付けて記憶しない。従って、分野識別情報と対応付けて記憶される文字情報が、その分野識別情報により識別される分野と比較的強い相関を有する可能性を高めることができる。これにより、音声認識システムは、より一層高い精度にて音声認識処理を行うことができる。
なお、本発明は上記実施形態に限定されることはなく、本発明の範囲内において種々の変形例を採用することができる。例えば、上記実施形態において、言語モデル作成サーバ10及び音声認識管理サーバ20は、互いに独立した2つのサーバ装置であった。ところで、上記実施形態の変形例は、言語モデル作成サーバ10及び音声認識管理サーバ20に代えて、言語モデル作成サーバ10の機能及び音声認識管理サーバ20の機能を有する1つのサーバ装置を備えていてもよい。
また、上記実施形態の変形例において、言語モデル作成サーバ10は、言語モデル作成サーバ10の機能が音声認識処理部56を含まないように、構成されていてもよい。この場合、言語モデル作成サーバ10は、音声認識管理サーバ20の機能である音声認識処理部61を用いて、音声情報を文字情報へ変換するように構成されていることが好適である。
具体的に述べると、言語モデル作成サーバ10は、音声情報を音声認識管理サーバ20へ送信する。そして、音声認識管理サーバ20は、受信した音声情報を、音声認識処理を行うことにより文字情報に変換し、その文字情報を言語モデル作成サーバ10へ送信する。次いで、言語モデル作成サーバ10は、音声認識管理サーバ20から受信した文字情報を記憶装置に記憶させる。このようにして、言語モデル作成サーバ10は、音声認識管理サーバ20の音声認識処理部61を用いて、音声情報を文字情報へ変換することができる。
また、上記実施形態の変形例において、言語モデル作成サーバ10は、図13に示したように、言語モデル作成サーバ10の機能がフィルタ処理部57を含まないように、構成されていてもよい。
更に、上記実施形態において、言語モデル作成サーバ10は、ウェブサーバ42,43から受信した音声情報を変換した文字情報と、ウェブサーバ42,43から受信した文字情報から抽出した文字情報と、の両方を記憶装置に記憶させるように構成されていた。ところで、上記実施形態の変形例において、言語モデル作成サーバ10は、図14に示したように、ウェブサーバ42,43から受信した音声情報を変換した文字情報のみを記憶装置に記憶させるように構成されていてもよい。
また、上記実施形態の他の変形例において、言語モデル作成サーバ10は、図15に示したように、ウェブサーバ42,43から受信した文字情報から抽出した文字情報のみを記憶装置に記憶させるように構成されていてもよい。即ち、この場合、言語モデル作成サーバ10の機能は、音声情報記憶部55〜フィルタ処理部57を含まない。
更に、上記実施形態の他の変形例において、言語モデル作成サーバ10は、図16に示したように、文字情報に基づいて言語モデルを作成しないように構成されていてもよい。即ち、この場合、言語モデル作成サーバ10の機能は、言語モデル作成部58及び言語モデル記憶部59を含まない。また、この場合、音声認識管理サーバ20は、言語モデル作成サーバ10の記憶装置に記憶されている文字情報に基づいて音声認識処理を行うように構成されていることが好適である。
本発明は、音声情報を文字情報に変換する処理を行う音声認識システム等に適用可能である。
本発明の実施形態に係る音声認識システムの概略構成を表す図である。 図1に示した音声認識システムの機能の概略を表すブロック図である。 言語モデル作成サーバの記憶装置に互いに対応付けて記憶されている、分野識別情報とキーワードとの組を複数含むテーブルである。 ウェブサーバから受信されるデータのうちの、HTMLに従って記述されたデータが表す文字列を示した図である。 ウェブサーバから受信されるデータのうちの、RSSに従って記述されたデータが表す文字列を示した図である。 言語モデル作成サーバの記憶装置に互いに対応付けて記憶されている、分野識別情報と文字情報との組を複数含むテーブルである。 言語モデル作成サーバが信頼度に基づいて実行するフィルタ処理の作動を説明するための概念図である。 言語モデル作成サーバがウェブサーバからデータを取得し、取得したデータに基づいて言語モデルを作成する際の言語モデル作成サーバ、検索用ウェブサーバ及びウェブサーバの作動を示したシーケンス図である。 言語モデル作成サーバのCPUが実行するデータ取得プログラムを示したフローチャートである。 言語モデル作成サーバのCPUが実行する音声情報処理プログラムを示したフローチャートである。 言語モデル作成サーバのCPUが実行する言語モデル作成プログラムを示したフローチャートである。 音声認識管理サーバが音声認識処理を実行する際の言語モデル作成サーバ、音声認識管理サーバ及び音声認識利用端末の作動を示したシーケンス図である。 実施形態の変形例に係る音声認識システムの機能の概略を表すブロック図である。 実施形態の変形例に係る音声認識システムの機能の概略を表すブロック図である。 実施形態の変形例に係る音声認識システムの機能の概略を表すブロック図である。 実施形態の変形例に係る音声認識システムの機能の概略を表すブロック図である。
符号の説明
1 音声認識システム
10 言語モデル作成サーバ
20 音声認識管理サーバ
30 音声認識利用端末
41 検索用ウェブサーバ
42,43 ウェブサーバ
51 キーワード記憶部
52 データ取得部
53 データ分類処理部
54 文字情報記憶部
55 音声情報記憶部
56 音声認識処理部
57 フィルタ処理部
58 言語モデル作成部
59 言語モデル記憶部
61 音声認識処理部
71 音声情報入力部
72 文字情報出力部
NW1,NW2 通信回線

Claims (15)

  1. 分野毎に分類されたキーワードとしての文字列を記憶するキーワード記憶手段と、
    前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、HTML(Hyper Text Markup Language)に従って記述されたHTMLデータ又はRSS(Rich Site Summary)に従って記述されたRSSデータ、を特定するためのURL(Uniform Resource Locator)を受信し、当該受信されたURLにより特定される文字データを当該URLにより特定されるウェブサーバから取得し、当該取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、
    を備え、
    前記文字情報記憶処理手段は、音声を表す音声データを特定するURLが前記取得された文字データに含まれる場合、当該URLにより特定される音声データを当該URLにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成され、
    音声を表す音声データと、前記分野識別情報と、を受け付けるとともに、当該受け付けられた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行するように構成された音声認識システム。
  2. 請求項1に記載の音声認識システムであって、
    前記文字情報記憶処理手段は、前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも1つを、前記文字情報として抽出し、当該抽出された文字情報を、当該文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された音声認識システム。
  3. 請求項1又は請求項2に記載の音声認識システムであって、
    前記受け付けられた分野識別情報と対応付けて記憶されている文字情報に基づいて、1つの文において、ある単語が他の単語とともに存在する確率を表す情報を含む言語モデルを作成し、当該作成した言語モデルに基づいて前記音声認識処理を行うように構成された音声認識システム。
  4. 請求項3に記載の音声認識システムであって、
    前記受け付けられた分野識別情報と対応付けて新たに記憶された文字情報の数が予め設定された更新用閾値数以上となった場合、前記言語モデルを作成するように構成された音声認識システム。
  5. 請求項1乃至請求項4のいずれかに記載の音声認識システムであって、
    前記キーワード記憶手段は、キーワードと、当該キーワードが属する分野を識別する分野識別情報と、を対応付けて記憶するように構成され、
    前記文字情報記憶処理手段は、前記取得された文字データが、当該文字データを取得する基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶されているキーワードを、予め設定された第1の閾値数以上含む場合に、当該文字データから抽出された前記文字情報を当該分野識別情報と対応付けて記憶するように構成された音声認識システム。
  6. 請求項5に記載の音声認識システムであって、
    前記文字情報記憶処理手段は、前記取得された文字データが、当該文字データを取得する基となったキーワードが属する分野を識別する分野識別情報である第1の分野識別情報と対応付けて記憶されているキーワードを、前記第1の閾値数よりも少ない数だけ含み、且つ、当該文字データが、当該第1の分野識別情報以外の第2の分野識別情報と対応付けて記憶されているキーワードを予め設定された第2の閾値数以上含む場合、当該文字データから抽出された前記文字情報を当該第2の分野識別情報と対応付けて記憶するように構成された音声認識システム。
  7. 請求項6に記載の音声認識システムであって、
    前記文字情報記憶処理手段は、前記取得された文字データが、当該文字データを取得する基となったキーワードが属する分野を識別する分野識別情報である第1の分野識別情報と対応付けて記憶されているキーワードを、前記第1の閾値数よりも少ない数だけ含み、且つ、当該文字データが、複数の分野のそれぞれに対して、その分野に分類されたキーワードを前記第2の閾値数以上含む場合、当該文字データが含むキーワードの数が最大となるキーワードが属する分野を識別する分野識別情報と、当該文字データから抽出された前記文字情報を対応付けて記憶するように構成された音声認識システム。
  8. 分野毎に分類されたキーワードとしての文字列を予め記憶し、
    前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、HTML(Hyper Text Markup Language)に従って記述されたHTMLデータ又はRSS(Rich Site Summary)に従って記述されたRSSデータ、を特定するためのURL(Uniform Resource Locator)を受信し、
    前記受信されたURLにより特定される文字データを当該URLにより特定されるウェブサーバから取得し、
    前記取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、前記キーワードが属する分野を識別する分野識別情報と対応付けて記憶し、
    音声を表す音声データを特定するURLが前記取得された文字データに含まれる場合、当該URLにより特定される音声データを当該URLにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶し、
    音声を表す音声データと、前記分野識別情報と、を受け付け、
    前記受け付けられた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行する、音声認識方法。
  9. 請求項8に記載の音声認識方法であって、
    前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも1つを、前記文字情報として抽出し、
    前記抽出された文字情報を、前記文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された音声認識方法。
  10. 分野毎に分類されたキーワードとしての文字列を記憶するキーワード記憶手段と、
    前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、HTML(Hyper Text Markup Language)に従って記述されたHTMLデータ又はRSS(Rich Site Summary)に従って記述されたRSSデータ、を特定するためのURL(Uniform Resource Locator)を受信し、当該受信されたURLにより特定される文字データを当該URLにより特定されるウェブサーバから取得し、当該取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、
    を備え、
    前記文字情報記憶処理手段は、音声を表す音声データを特定するURLが前記取得された文字データに含まれる場合、当該URLにより特定される音声データを当該URLにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された文字情報蓄積装置。
  11. 請求項10に記載の文字情報蓄積装置であって、
    前記文字情報記憶処理手段は、前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも1つを、前記文字情報として抽出し、当該抽出された文字情報を、当該文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された文字情報蓄積装置。
  12. 分野毎に分類されたキーワードとしての文字列を予め記憶し、
    前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、HTML(Hyper Text Markup Language)に従って記述されたHTMLデータ又はRSS(Rich Site Summary)に従って記述されたRSSデータ、を特定するためのURL(Uniform Resource Locator)を受信し、
    前記受信されたURLにより特定される文字データを当該URLにより特定されるウェブサーバから取得し、
    前記取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、前記キーワードが属する分野を識別する分野識別情報と対応付けて記憶し、
    音声を表す音声データを特定するURLが前記取得された文字データに含まれる場合、当該URLにより特定される音声データを当該URLにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶する、文字情報蓄積方法。
  13. 請求項12に記載の文字情報蓄積方法であって、
    前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも1つを、前記文字情報として抽出し、
    前記抽出された文字情報を、前記文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された文字情報蓄積方法。
  14. 文字情報蓄積装置に、
    分野毎に分類されたキーワードとしての文字列を予め記憶し、
    前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、HTML(Hyper Text Markup Language)に従って記述されたHTMLデータ又はRSS(Rich Site Summary)に従って記述されたRSSデータ、を特定するためのURL(Uniform Resource Locator)を受信し、
    前記受信されたURLにより特定される文字データを当該URLにより特定されるウェブサーバから取得し、
    前記取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、前記キーワードが属する分野を識別する分野識別情報と対応付けて記憶し、
    音声を表す音声データを特定するURLが前記取得された文字データに含まれる場合、当該URLにより特定される音声データを当該URLにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶する、処理を実行させるための文字情報蓄積プログラム。
  15. 請求項14に記載の文字情報蓄積プログラムであって、
    前記処理は、
    前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも1つを、前記文字情報として抽出し、
    前記抽出された文字情報を、前記文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された文字情報蓄積プログラム。
JP2008145242A 2008-06-03 2008-06-03 音声認識システム Active JP4962416B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008145242A JP4962416B2 (ja) 2008-06-03 2008-06-03 音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008145242A JP4962416B2 (ja) 2008-06-03 2008-06-03 音声認識システム

Publications (2)

Publication Number Publication Date
JP2009294269A JP2009294269A (ja) 2009-12-17
JP4962416B2 true JP4962416B2 (ja) 2012-06-27

Family

ID=41542537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008145242A Active JP4962416B2 (ja) 2008-06-03 2008-06-03 音声認識システム

Country Status (1)

Country Link
JP (1) JP4962416B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102471252B (zh) * 2009-08-10 2014-07-02 住友化学株式会社 (氟烷基硫基)乙酸酯的制造方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012022053A (ja) * 2010-07-12 2012-02-02 Fujitsu Toshiba Mobile Communications Ltd 音声認識装置
JPWO2012131822A1 (ja) * 2011-03-30 2014-07-24 日本電気株式会社 音声認識結果整形装置、音声認識結果整形方法及びプログラム
CN112992127A (zh) * 2019-12-12 2021-06-18 杭州海康威视数字技术股份有限公司 一种语音识别的方法和装置
CN111273879A (zh) * 2020-01-10 2020-06-12 杭州勇电照明有限公司 一种用户互动显示大屏显示方法及装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999018556A2 (en) * 1997-10-08 1999-04-15 Koninklijke Philips Electronics N.V. Vocabulary and/or language model training
US6195641B1 (en) * 1998-03-27 2001-02-27 International Business Machines Corp. Network universal spoken language vocabulary
JP2002091477A (ja) * 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2002207750A (ja) * 2001-01-05 2002-07-26 Toshiba Corp 文書分類装置および記憶媒体
JP2003022276A (ja) * 2001-07-06 2003-01-24 Toshiba Corp 文書検索装置及び文書検索方法
JP2003186494A (ja) * 2001-12-17 2003-07-04 Sony Corp 音声認識装置および方法、記録媒体、並びにプログラム
JP4515186B2 (ja) * 2003-09-02 2010-07-28 株式会社ジー・エフグループ 音声辞書作成装置、音声辞書作成方法、及びプログラム
JP4581441B2 (ja) * 2004-03-18 2010-11-17 パナソニック株式会社 家電機器システム、家電機器および音声認識方法
US20060025995A1 (en) * 2004-07-29 2006-02-02 Erhart George W Method and apparatus for natural language call routing using confidence scores

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102471252B (zh) * 2009-08-10 2014-07-02 住友化学株式会社 (氟烷基硫基)乙酸酯的制造方法

Also Published As

Publication number Publication date
JP2009294269A (ja) 2009-12-17

Similar Documents

Publication Publication Date Title
CN105931644B (zh) 一种语音识别方法及移动终端
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
US9251786B2 (en) Method, medium and apparatus for providing mobile voice web service
US8370127B2 (en) Systems and methods for building asset based natural language call routing application with limited resources
US8682640B2 (en) Self-configuring language translation device
JP2017107078A (ja) 音声対話方法、音声対話装置及び音声対話プログラム
WO2018045646A1 (zh) 基于人工智能的人机交互方法和装置
JP2004005530A (ja) 音声対話インターフェースを利用した情報提供装置及びその方法
US11586689B2 (en) Electronic apparatus and controlling method thereof
JP7095114B2 (ja) ネットワーク化システムでのドメイン固有モデルの生成
KR20110117086A (ko) 발성 처리를 위한 인식기들의 마크업 언어 기반 선택 및 이용
JP4962416B2 (ja) 音声認識システム
US10600337B2 (en) Intelligent content parsing with synthetic speech and tangible braille production
CN111312233A (zh) 一种语音数据的识别方法、装置及系统
KR20150077580A (ko) 음성 인식 기반 서비스 제공 방법 및 그 장치
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
CN113342968A (zh) 文本摘要提取方法及装置
JP6179971B2 (ja) 情報提供装置及び情報提供方法
KR20140060217A (ko) 오디오 신호에 의해 메시지를 포스팅하는 시스템 및 방법
RU2631975C2 (ru) Способ и система для обработки входных команд пользователя
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
CN111524508A (zh) 语音对话系统以及语音对话实现方法
JP2014110005A (ja) 情報検索装置及び情報検索方法
KR100832859B1 (ko) 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
JP5959068B2 (ja) 接続関係の可視化を支援する装置及び方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20100630

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110304

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110627

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111220

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120228

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120312

R150 Certificate of patent or registration of utility model

Ref document number: 4962416

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150406

Year of fee payment: 3