JP4962416B2

JP4962416B2 - 音声認識システム

Info

Publication number: JP4962416B2
Application number: JP2008145242A
Authority: JP
Inventors: 敦典坂井
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-06-03
Filing date: 2008-06-03
Publication date: 2012-06-27
Anticipated expiration: 2028-06-03
Also published as: JP2009294269A

Description

本発明は、音声を表す音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う音声認識システムに関する。

音声を表す音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う音声認識システムが知られている。この音声認識システムは、予め多数の文字情報を記憶している。そして、音声認識システムは、記憶している文字情報に基づいて上記音声認識処理を行う。

これによれば、音声認識処理を行うことによって音声情報から変換された文字情報が表す文字列がその音声情報が表す音声を実際に表している確率を、文字情報を用いることなく音声のみに基づいて音声認識処理を行う場合よりも高めることができる。即ち、より高い精度にて音声認識処理を行うことができる。

ところで、会話においては、分野（例えば、業務分野及び学問分野等）毎にその分野に特有の用語及び言い回しが用いられる。そこで、この種の音声認識システムの一つとして、特許文献１に記載の音声認識システムは、分野毎に文字情報を予め記憶している。この音声認識システムによれば、ユーザにより選択された分野の文字情報に基づいて音声認識処理を行うことにより、より高い精度にて音声認識処理を行うことができる。
特許第３９６１７８０号公報

しかしながら、上記音声認識システムにおいては、分野毎に比較的多数の文字情報を予め記憶させておかなければ、高い精度にて音声認識処理を行うことができないという問題があった。

このため、本発明の目的は、上述した課題である「分野毎に比較的多数の文字情報を予め記憶させておかなければ、高い精度にて音声認識処理を行うことができないこと」を解決することが可能な音声認識システムを提供することにある。

かかる目的を達成するため本発明の一形態である音声認識システムは、
分野毎に分類されたキーワードを記憶するキーワード記憶手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、を備え、
音声を表す音声情報と、上記分野識別情報と、を受け付けるとともに、当該受け付けた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行うように構成される。

また、本発明の他の形態である音声認識方法は、
分野毎に分類されたキーワードを記憶装置に記憶させるキーワード記憶処理工程と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶装置に記憶させる文字情報記憶処理工程と、を含み、
音声を表す音声情報と、上記分野識別情報と、を受け付けるとともに、当該受け付けた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う方法である。

また、本発明の他の形態である文字情報蓄積装置は、
分野毎に分類されたキーワードを記憶するキーワード記憶手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、を備え、
上記文字情報記憶処理手段は、音声情報を上記データとして取得するように構成され、且つ、当該取得した音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換することにより、当該取得した音声情報から前記文字情報を抽出するように構成される。

また、本発明の他の形態である文字情報蓄積プログラムは、
記憶装置を備える文字情報蓄積装置に、
分野毎に分類されたキーワードを上記記憶装置に記憶させるキーワード記憶処理手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて上記記憶装置に記憶させる文字情報記憶処理手段と、を実現させるとともに、
上記文字情報記憶処理手段は、音声情報を上記データとして取得するように構成され、且つ、当該取得した音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換することにより、当該取得した音声情報から前記文字情報を抽出するように構成される。

本発明は、以上のように構成されることにより、分野毎に比較的多数の文字情報が予め記憶されていない場合であっても比較的高い精度にて音声認識処理を行うことができる。

本発明の一形態である音声認識システムは、
分野毎に分類されたキーワードを記憶するキーワード記憶手段と、
上記記憶されているキーワードと対応付けられたデータを取得し、当該取得したデータから文字情報を抽出し、当該抽出した文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、を備え、
音声を表す音声情報と、上記分野識別情報と、を受け付けるとともに、当該受け付けた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声情報を、当該音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行うように構成される。

これによれば、音声認識システムは、キーワードと対応付けられたデータから抽出した文字情報を、分野毎に記憶する。そして、音声認識システムは、分野毎に記憶された文字情報に基づいて音声認識処理を行う。この結果、音声認識システムは、分野毎に比較的多数の文字情報が予め記憶されていない場合であっても、比較的高い精度にて音声認識処理を行うことができる。

この場合、
上記文字情報記憶処理手段は、音声情報を上記データとして取得するように構成され、且つ、上記音声認識処理を行うことによって当該取得した音声情報を文字情報に変換することにより、当該取得した音声情報から上記文字情報を抽出するように構成されることが好適である。

これによれば、音声認識システムは、音声情報が表す音声（即ち、話し言葉）を文字列により表した文字情報を記憶（蓄積）する。これにより、音声認識システムは、より一層高い精度にて音声認識処理を行うことができる。

この場合、
上記文字情報記憶処理手段は、上記音声認識処理を行うことによって上記音声情報から変換された文字情報が表す文字列が、その音声情報が表す音声を実際に表している確率を表すパラメータである信頼度を算出し、上記変換された文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を記憶するように構成されることが好適である。

これによれば、音声認識システムは、音声認識処理を行うことによって変換（取得）された文字情報のうちの、信頼度が高い部分のみを記憶（蓄積）する。これにより、音声認識システムは、より一層高い精度にて音声認識処理を行うことができる。

この場合、
上記文字情報記憶処理手段は、文字情報を上記データとして取得するように構成され、且つ、当該取得した文字情報から予め定められた部分の文字情報を抽出するように構成されることが好適である。

この場合、
上記音声認識システムは、
上記受け付けられた分野識別情報と対応付けて記憶されている文字情報に基づいて、単語間の相関を表す言語モデルを作成し、当該作成した言語モデルに基づいて上記音声認識処理を行うように構成されることが好適である。

この場合、
上記音声認識システムは、
上記受け付けられた分野識別情報と対応付けて新たに記憶された文字情報の数が予め設定された更新用閾値数以上となった場合、上記言語モデルを作成するように構成されることが好適である。

この場合、
上記文字情報記憶処理手段は、上記取得したデータが、当該データを取得する基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶されているキーワードを、予め設定された第１の閾値数以上含む場合に、当該データから抽出した文字情報を当該分野識別情報と対応付けて記憶するように構成されることが好適である。

これによれば、音声認識システムは、ある分野識別情報と対応付けて記憶されているキーワードを、第１の閾値数以上含まないデータから抽出した文字情報をその分野識別情報と対応付けて記憶しない。従って、分野識別情報と対応付けて記憶される文字情報が、その分野識別情報により識別される分野と比較的強い相関を有する可能性を高めることができる。これにより、音声認識システムは、より一層高い精度にて音声認識処理を行うことができる。

この場合、
上記文字情報記憶処理手段は、上記取得したデータが、当該データを取得する基となったキーワードが属する分野を識別する分野識別情報である第１の分野識別情報と対応付けて記憶されているキーワードを、上記第１の閾値数よりも少ない数だけ含み、且つ、上記取得したデータが、当該第１の分野識別情報以外の第２の分野識別情報と対応付けて記憶されているキーワードを予め設定された第２の閾値数以上含む場合、当該データから抽出した文字情報を当該第２の分野識別情報と対応付けて記憶するように構成されることが好適である。

この場合、
上記文字情報記憶処理手段は、上記取得したデータが、当該データを取得する基となったキーワードが属する分野を識別する分野識別情報である第１の分野識別情報と対応付けて記憶されているキーワードを、上記第１の閾値数よりも少ない数だけ含み、且つ、上記取得したデータが、複数の分野のそれぞれに対して、その分野に分類されたキーワードを上記第２の閾値数以上含む場合、当該取得したデータが含むキーワードの数が最大となるキーワードが属する分野を識別する分野識別情報と、当該データから抽出した文字情報を対応付けて記憶するように構成されることが好適である。

この場合、
上記文字情報記憶処理手段は、キーワードを受信した場合にそのキーワードに対応付けられたデータを送信するサーバ装置を特定するためのサーバ装置特定情報を出力する検索サーバ装置へ、上記記憶されているキーワードを送信し、当該検索サーバ装置から出力されたサーバ装置特定情報により特定されるサーバ装置から上記データを取得するように構成されることが好適である。

この場合、
上記文字情報記憶処理工程は、音声情報を上記データとして取得するように構成され、且つ、上記音声認識処理を行うことによって当該取得した音声情報を文字情報に変換することにより、当該取得した音声情報から上記文字情報を抽出するように構成されることが好適である。

この場合、
上記文字情報記憶処理工程は、上記音声認識処理を行うことによって上記音声情報から変換された文字情報が表す文字列が、その音声情報が表す音声を実際に表している確率を表すパラメータである信頼度を算出し、上記変換された文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を上記記憶装置に記憶させるように構成されることが好適である。

この場合、
上記文字情報記憶処理手段は、上記音声情報から変換された文字情報が表す文字列が、その音声情報が表す音声を実際に表している確率を表すパラメータである信頼度を算出し、上記変換された文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を記憶するように構成されることが好適である。

上述した構成を有する、音声認識方法、文字情報蓄積装置、又は、文字情報蓄積プログラム、の発明であっても、上記音声認識システムと同様の作用を有するために、上述した本発明の目的を達成することができる。

以下、本発明に係る、音声認識システム、音声認識方法、文字情報蓄積装置、及び、文字情報蓄積プログラム、の実施形態について図１〜図１５を参照しながら説明する。

＜実施形態＞
図１に示したように、実施形態に係る音声認識システム１は、言語モデル作成サーバ（文字情報蓄積装置）１０と、音声認識管理サーバ２０と、音声認識利用端末３０と、検索用ウェブサーバ（検索サーバ装置）４１と、ウェブサーバ（サーバ装置）４２と、ウェブサーバ（サーバ装置）４３と、を含む。

言語モデル作成サーバ１０、音声認識管理サーバ２０及び音声認識利用端末３０は、通信回線ＮＷ１を介して互いに通信可能に接続されている。本例では、言語モデル作成サーバ１０、音声認識管理サーバ２０及び音声認識利用端末３０は、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）を構成している。

また、検索用ウェブサーバ４１、ウェブサーバ４２及びウェブサーバ４３は、通信回線ＮＷ２を介して互いに通信可能に接続されている。本例では、検索用ウェブサーバ４１、ウェブサーバ４２及びウェブサーバ４３は、インターネットを構成している。また、言語モデル作成サーバ１０、音声認識管理サーバ２０及び音声認識利用端末３０が構成するＬＡＮは、インターネットに接続されている。

言語モデル作成サーバ１０は、図示しない中央処理装置（ＣＰＵ；ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、記憶装置（メモリ及びハードディスク装置（ＨＤＤ；ＨａｒｄＤｉｓｋＤｒｉｖｅ））及び通信装置を備えている。言語モデル作成サーバ１０は、記憶装置に記憶されているプログラムをＣＰＵが実行することにより、後述する機能を実現するように構成されている。音声認識管理サーバ２０、検索用ウェブサーバ４１、ウェブサーバ４２及びウェブサーバ４３のそれぞれも、言語モデル作成サーバ１０と同様の構成を有している。

また、音声認識利用端末３０は、パーソナルコンピュータ（ＰＣ；ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）であり、図示しないＣＰＵ、記憶装置（メモリ及びＨＤＤ）、通信装置、入力装置及び出力装置を備えている。音声認識利用端末３０は、記憶装置に記憶されているプログラムをＣＰＵが実行することにより、後述する機能を実現するように構成されている。

更に、音声認識利用端末３０は、入力装置を介して情報が入力されるように構成されている。本例では、入力装置は、マウス、キーボード及びマイクを含む。マイクは、周囲の音声を集音し、集音した音声を表す音声情報をＣＰＵへ出力する。加えて、音声認識利用端末３０は、出力装置を介して情報を出力するように構成されている。本例では、出力装置は、文字及び図形等からなる画像を表示するディスプレイを含む。

検索用ウェブサーバ４１は、ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）と、そのＵＲＬにより特定されるデータ（本例では、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）又はＲＳＳ（ＲｅａｌｌｙＳｉｍｐｌｅＳｙｎｄｉｃａｔｉｏｎ）に従って記述された文字情報）から抽出された検索用の文字列を表す検索用情報と、を対応付けて予め記憶装置に記憶させている。なお、ＵＲＬは、そのＵＲＬにより特定されるデータを送信するサーバ装置を特定するためのサーバ装置特定情報を含む情報である。

検索用ウェブサーバ４１は、言語モデル作成サーバ１０からキーワードを受信する。検索用ウェブサーバ４１は、受信したキーワードを含む検索用情報と対応付けて記憶されているＵＲＬを検索する。検索用ウェブサーバ４１は、複数のＵＲＬを含む検索結果を言語モデル作成サーバ１０へ送信（出力）する。

各ウェブサーバ４２，４３は、ＵＲＬにより特定されるデータの送信を要求する旨を表す情報を言語モデル作成サーバ１０から受信する。各ウェブサーバ４２，４３は、その情報を受信すると、そのＵＲＬにより特定されるデータを言語モデル作成サーバ１０へ送信する。

図２は、上記のように構成された音声認識システム１の機能を表すブロック図である。この機能は、言語モデル作成サーバ１０のＣＰＵが後述する図９〜図１１に示したフローチャートにより表されるプログラム等を実行し、且つ、音声認識管理サーバ２０及び音声認識利用端末３０のそれぞれのＣＰＵが図示しないプログラムを実行することにより、実現される。

この言語モデル作成サーバ１０の機能は、キーワード記憶部（キーワード記憶手段）５１と、データ取得部５２と、データ分類処理部５３と、文字情報記憶部５４と、音声情報記憶部５５と、音声認識処理部５６と、フィルタ処理部５７と、言語モデル作成部５８と、言語モデル記憶部５９と、を含む。なお、データ取得部５２、データ分類処理部５３、文字情報記憶部５４、音声情報記憶部５５、音声認識処理部５６、及び、フィルタ処理部５７は、文字情報記憶処理手段を構成している。

キーワード記憶部５１は、分野毎に分類されたキーワードを言語モデル作成サーバ１０の記憶装置に予め記憶させている（キーワード記憶処理工程）。具体的には、キーワード記憶部５１は、図３に示したように、分野を識別する分野識別情報と、キーワード（キーワード（文字列）を表す情報）と、を対応付けて記憶させている。本例では、金融分野を識別する分野識別情報は「１」であり、医療分野を識別する分野識別情報は「２」である。

データ取得部５２は、キーワード記憶部５１に記憶されているキーワードを検索用ウェブサーバ４１へ送信する。データ取得部５２は、検索用ウェブサーバ４１から検索結果を受信する。ここで、検索結果は、複数のＵＲＬを含む情報である。

データ取得部５２は、受信した検索結果に含まれるＵＲＬにより特定されるウェブサーバ４２，４３へ、そのＵＲＬにより特定されるデータ（即ち、キーワードと対応付けられたデータ）の送信を要求する（データの送信を要求する旨を表す情報を送信する）。そして、データ取得部５２は、ウェブサーバ４２，４３からデータ（本例では、ＨＴＭＬ又はＲＳＳに従って記述された文字情報）を受信する。

更に、データ取得部５２は、受信したデータに、音声情報を含むデータ（ＷＡＶＥ形式のファイル、ＭＰ３（ＭＰＥＧ−１ＡｕｄｉｏＬａｙｅｒ３）形式のファイル等）を特定するＵＲＬが含まれる場合には、そのＵＲＬにより特定される音声情報（データ）の送信を要求する。そして、データ取得部５２は、ウェブサーバ４２，４３から音声情報を受信する。

データ分類処理部５３は、データ取得部５２により受信されたデータ（文字情報及び音声情報）を分野毎に分類する処理を行う。具体的には、データ分類処理部５３は、データ取得部５２により受信された文字情報から予め定められた部分の文字情報を抽出する。本例では、文字情報が表す文字列が、図４に示したように、ＨＴＭＬに従って記述されている場合、データ分類処理部５３は、ｔｉｔｌｅ要素、及び、ｍｅｔａ要素のうちの、ｎａｍｅ属性の値が「ｋｅｙｗｏｒｄｓ」又は「ｄｅｓｃｒｉｐｔｉｏｎ」である要素のｃｏｎｔｅｎｔ属性の値等を文字情報として抽出する。即ち、この例では、「国際金融入門」、「株式」、「債券」、「金融」、「市場」及び「株式と債券の相関に基づく国際金融入門」が抽出される。

また、文字情報が表す文字列が、図５に示したように、ＲＳＳに従って記述されている場合、データ分類処理部５３は、ｔｉｔｌｅ要素、及び、ｄｅｓｃｒｉｐｔｉｏｎ要素等を文字情報として抽出する。即ち、この例では、「金融情報」、「金融情報を提供するサイトです」、「株式と債券の今後の動向」及び「今後の国際市場における株式と債券の動向についての講演」が抽出される。

そして、データ分類処理部５３は、抽出した文字情報が表す文字列に含まれるキーワードの数（キーワード数）を算出し、算出したキーワード数に基づいて、その文字情報が属する分野を特定する。なお、この処理の詳細については後述する。また、データ分類処理部５３は、他の要素（例えば、ｌａｎｇｕａｇｅ要素等）の文字情報も用いて分野を特定してもよい。

文字情報記憶部５４は、データ分類処理部５３により、抽出された文字情報と、特定された分野を識別する分野識別情報と、を図６に示したように、互いに対応付けて言語モデル作成サーバ１０の記憶装置に記憶させる。

音声情報記憶部５５は、データ取得部５２により受信された音声情報を、データ分類処理部５３により特定された分野を識別する分野識別情報と対応付けて言語モデル作成サーバ１０の記憶装置に記憶させる。

音声認識処理部５６は、音声情報が新たに音声情報記憶部５５に記憶されると、言語モデル記憶部５９により言語モデル作成サーバ１０の記憶装置に記憶させられている言語モデルを取得する。この言語モデルは、上記新たに記憶された音声情報と対応付けて記憶されている分野識別情報と対応付けて記憶されている言語モデルである。また、言語モデルは、１つの文において、ある単語が他の単語（例えば、直前の単語及び直後の単語等）とともに存在する確率（即ち、単語間の相関）を表す情報を含むモデルである。

音声認識処理部５６は、予め記憶装置に記憶されている音響モデルと、取得した言語モデルと、に基づいて、音声情報記憶部５５に新たに記憶された音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う。ここで、音響モデルは、音素と発音記号とを対応付ける情報を含むモデルである。

具体的には、音声認識処理部５６は、変換する対象となる音声情報と音響モデルとに基づいて発音記号を生成する。そして、音声認識処理部５６は、予め記憶装置に記憶されている単語辞書と、生成した発音記号と、に基づいて、その発音記号に対応する（その発音記号に近似する発音記号と対応付けて記憶されている）単語を取得し、取得した単語に基づいて変換候補としての文字情報を生成する。ここで、単語辞書は、単語（を表す文字情報）と発音記号とが互いに対応付けられた情報である。

そして、音声認識処理部５６は、生成した変換候補（が表す文字列）内の単語毎に、その単語と対応付けて記憶されている発音記号と、上記生成した発音記号のうちの対応する部分と、が一致している程度を表す第１の評価値を算出する。

更に、音声認識処理部５６は、生成した変換候補内の単語毎に、言語モデルに基づいて、その単語が、その変換候補が表す文字列（１つの文）において他の単語（例えば、直前の単語及び直後の単語等）とともに存在する確率を表す第２の評価値を、算出する。

そして、音声認識処理部５６は、生成した変換候補内の単語毎に、第１の評価値及び第２の評価値に基づいて、第１の評価値が大きくなるほど大きくなり且つ第２の評価値が大きくなるほど大きくなる最終評価値を算出する。音声認識処理部５６は、算出した最終評価値を１つの変換候補内のすべての単語にわたって平均した評価値平均値が最大となる変換候補を変換結果として選択する。なお、音声認識処理部５６が変換候補を選択する処理は、本明細書に開示された処理以外の処理により置換されてもよい。

更に、音声認識処理部５６は、変換結果として選択された文字情報が表す文字列内の単語毎に信頼度を算出する。信頼度は、当該単語を他の単語に置換した変換候補の評価値平均値と、変換結果の評価値平均値と、の差の絶対値が予め設定された閾値よりも小さくなる変換候補の数が多くなるほど小さくなる値である。即ち、信頼度は、音声認識処理を行うことによって音声情報から変換された文字情報が表す文字列が、その音声情報が表す音声を実際に表している確率を表すパラメータである。

そして、音声認識処理部５６は、変換結果として選択された文字情報と、その文字情報が表す文字列内の各単語に対応付けられた信頼度と、を出力する。

フィルタ処理部５７は、音声認識処理部５６により変換（出力）された文字情報（変換結果）が表す文字列から、上記出力（算出）された信頼度が予め設定された閾値以下である（閾値以下の信頼度と対応付けられた）単語（部分）を除去する。例えば、図７の（Ａ）に示した文字情報において、点線により囲まれた部分（この例では、「えー」、「馬車」及び「あー」）の信頼度が閾値以下である場合、フィルタ処理部５７によって、図７の（Ｂ）に示したように、これらの部分が除去される。

文字情報記憶部５４は、フィルタ処理部５７により信頼度が閾値以下である部分が除去された文字情報（データ取得部５２により取得された音声情報から抽出された文字情報）を、その文字情報の基となった音声情報と対応付けて音声情報記憶部５５により記憶させられている分野識別情報と対応付けて言語モデル作成サーバ１０の記憶装置に記憶させる。即ち、文字情報記憶部５４は、信頼度が閾値よりも大きい部分を記憶装置に記憶させる。

言語モデル作成部５８は、文字情報記憶部５４に記憶されている文字情報に基づいて、分野毎に言語モデルを作成する。即ち、言語モデル作成部５８は、ある分野識別情報と対応付けて記憶されている文字情報に基づいて言語モデルを作成し、作成した言語モデルとその分野識別情報とを対応付けて出力する。

言語モデル記憶部５９は、言語モデル作成部５８により出力された言語モデルを、その言語モデルと対応付けて出力された分野識別情報と対応付けて言語モデル作成サーバ１０の記憶装置に記憶させる。

音声認識管理サーバ２０の機能は、音声認識処理部６１を含む。音声認識処理部６１は、音声認識処理部５６と同様の機能を有する。

音声認識処理部６１は、音声認識利用端末３０から音声認識処理開始要求を受信する。音声認識処理開始要求は、分野識別情報を含み且つ音声認識処理の実行の開始を要求する旨を表す情報である。即ち、音声認識処理部６１は、分野識別情報を受け付ける。

音声認識処理部６１は、音声認識処理開始要求を受信すると、言語モデル要求を言語モデル作成サーバ１０へ送信する。言語モデル要求は、音声認識管理サーバ２０が受信した音声認識処理開始要求に含まれる分野識別情報を含み、且つ、言語モデルの送信を要求する旨を表す情報である。

音声認識処理部６１は、言語モデル作成サーバ１０から言語モデルを受信する。音声認識処理部６１は、言語モデルを受信すると、処理開始通知を音声認識利用端末３０へ送信する。処理開始通知は、音声認識処理の実行を開始する旨を表す情報である。

更に、音声認識処理部６１は、音声認識利用端末３０から音声情報を受信する（受け付ける）。音声認識処理部６１は、受信した言語モデルに基づいて、受信した音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う。音声認識処理部６１は、変換された文字情報を音声認識利用端末３０へ送信する。

また、音声認識処理部６１は、音声認識利用端末３０から音声認識処理終了要求を受信する。音声認識処理終了要求は、音声認識処理の実行の終了を要求する旨を表す情報である。音声認識処理部６１は、音声認識処理終了要求を受信すると、音声認識処理の実行を終了する。

音声認識利用端末３０の機能は、音声情報入力部７１と、文字情報出力部７２と、を含む。
音声情報入力部７１は、入力装置を介してユーザＵＡから入力された分野識別情報を受け付ける。音声情報入力部７１は、分野識別情報を受け付けると、受け付けた分野識別情報を含む音声認識処理開始要求を音声認識管理サーバ２０へ送信する。

音声情報入力部７１は、音声認識管理サーバ２０から処理開始通知を受信すると、入力装置のマイクを介してユーザＵＡから入力された音声情報を受け付ける。音声情報入力部７１は、受け付けた音声情報を音声認識管理サーバ２０へ送信する。

文字情報出力部７２は、音声認識管理サーバ２０から文字情報を受信する。文字情報出力部７２は、受信した文字情報を出力装置のディスプレイを介して出力する（文字情報を表す画像をディスプレイに表示させる）。

次に、上述した音声認識システム１の作動について説明する。
先ず、言語モデル作成サーバ１０は、言語モデル作成サーバ１０の記憶装置に記憶させているキーワードに基づいて分野毎の言語モデルを作成する。

より具体的に述べると、言語モデル作成サーバ１０は、図８のシーケンス図に示したように、予め設定された複数の分野の中から１つの分野を選択する。そして、言語モデル作成サーバ１０は、選択した分野を識別する分野識別情報と対応付けて記憶装置に記憶されているキーワードを検索用ウェブサーバ４１へ送信する（ステップＡ１）。

検索用ウェブサーバ４１は、言語モデル作成サーバ１０からキーワードを受信すると、受信したキーワードを含む検索用情報と対応付けて記憶されているＵＲＬを検索する。検索用ウェブサーバ４１は、複数のＵＲＬを含む検索結果を言語モデル作成サーバ１０へ送信する（ステップＢ１）。

次いで、言語モデル作成サーバ１０は、検索用ウェブサーバ４１から検索結果を受信すると、受信した検索結果に含まれるＵＲＬにより特定されるウェブサーバ４２，４３のそれぞれへ、そのＵＲＬにより特定されるデータの送信を要求する旨を表す情報を送信する（ステップＡ２）。

各ウェブサーバ４２，４３は、ＵＲＬにより特定されるデータの送信を要求する旨を表す情報を言語モデル作成サーバ１０から受信すると、そのＵＲＬにより特定されるデータ（ここでは、文字情報（ＨＴＭＬ又はＲＳＳに従って記述された情報））を言語モデル作成サーバ１０へ送信する（ステップＣ１）。

言語モデル作成サーバ１０は、ウェブサーバ４２，４３からデータを受信する。そして、言語モデル作成サーバ１０は、受信したデータに、音声情報を含むデータ（ＷＡＶＥ形式のファイル、ＭＰ３形式のファイル等）を特定するＵＲＬが含まれる場合には、そのＵＲＬにより特定される音声情報（データ）の送信を要求する旨を表す情報をウェブサーバ４２，４３へ送信する（ステップＡ２）。

各ウェブサーバ４２，４３は、ＵＲＬにより特定されるデータの送信を要求する旨を表す情報を言語モデル作成サーバ１０から受信すると、そのＵＲＬにより特定されるデータ（ここでは、音声情報（ＷＡＶＥ形式のファイル、ＭＰ３形式のファイル等））を言語モデル作成サーバ１０へ送信する（ステップＣ１）。

そして、言語モデル作成サーバ１０は、上記選択した分野を識別する分野識別情報に対応付けて記憶されている任意のキーワードが、ウェブサーバ４２，４３から受信した文字情報が表す文字列に含まれる数（キーワード数）を算出する。言語モデル作成サーバ１０は、算出したキーワード数に基づいて、その文字情報が属する分野を特定する。なお、この処理の詳細については後述する。

更に、言語モデル作成サーバ１０は、特定した分野を識別する分野識別情報と、その文字情報と、を対応付けて記憶装置に記憶させる。更に、言語モデル作成サーバ１０が上記文字情報とともに音声情報を受信している場合、言語モデル作成サーバ１０は、特定した分野を識別する分野識別情報と、その音声情報と、を対応付けて記憶装置に記憶させる（ステップＡ３）。

そして、言語モデル作成サーバ１０は、音声情報が新たに記憶装置に記憶されると、その音声情報と対応付けて記憶される分野識別情報と対応付けて記憶されている言語モデルを取得する。なお、その分野識別情報と対応付けて言語モデルが記憶されていない場合、言語モデル作成サーバ１０は、記憶装置に予め記憶されている基本言語モデルを言語モデルとして取得する。基本言語モデルは、分野に関係なく収集された文字情報に基づいて作成された言語モデルである。

言語モデル作成サーバ１０は、記憶装置に記憶されている音響モデルと、取得した言語モデルと、に基づいて、上記新たに記憶された音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う（ステップＡ４）。更に、言語モデル作成サーバ１０は、変換結果である文字情報と、その文字情報が表す文字列内の各単語に対応付けられた信頼度と、を出力する。

次いで、言語モデル作成サーバ１０は、出力された文字情報（変換結果）が表す文字列から、信頼度が閾値以下である単語（部分）を除去する。即ち、言語モデル作成サーバ１０は、出力された文字情報に対して、信頼度に基づくフィルタ処理を行う（ステップＡ５）。そして、言語モデル作成サーバ１０は、フィルタ処理後の文字情報を、上記特定した分野を識別する分野識別情報と対応付けて記憶装置に記憶させる（ステップＡ６）。なお、ステップＡ１〜ステップＡ６の処理は、文字情報記憶処理工程に対応している。

次いで、言語モデル作成サーバ１０は、ある分野識別情報と対応付けて記憶装置に新たに記憶された文字情報の数が予め設定された更新用閾値数以上である場合、その分野識別情報と対応付けて記憶されているすべての文字情報に基づいて言語モデルを作成する（ステップＡ７）。

そして、言語モデル作成サーバ１０は、作成した言語モデルを、その言語モデルを作成する基となった文字情報と対応付けて記憶されている分野識別情報と対応付けて記憶装置に記憶させることにより、その分野識別情報により識別される分野の言語モデルを更新する（ステップＡ８）。

ここで、上記ステップＡ１、ステップＡ２及びステップＡ３の処理をより詳細に説明する。この処理は、図９にフローチャートにより示したデータ取得プログラムの処理である。なお、データ取得プログラムは、文字情報蓄積プログラムの一部を構成している。

言語モデル作成サーバ１０のＣＰＵは、このデータ取得プログラムの処理を開始すると、ステップ９０５にて、予め設定されている複数の分野の中から未だ選択されていない１つの分野を選択する。

次いで、ＣＰＵは、ステップ９１０にて、上記選択した分野を識別する分野識別情報と対応付けて記憶装置に記憶されている複数のキーワードの中から未だ選択されていない１つのキーワードを選択する。そして、ＣＰＵは、ステップ９１５にて、選択したキーワードを検索用ウェブサーバ４１へ送信する。

その後、ＣＰＵは、ステップ９２０にて、検索用ウェブサーバ４１から検索結果を受信するまで待機する。そして、ＣＰＵは、検索用ウェブサーバ４１から検索結果を受信すると、「Ｙｅｓ」と判定してステップ９２５へ進み、受信した検索結果に含まれるＵＲＬにより特定されるウェブサーバ４２，４３のそれぞれへ、そのＵＲＬにより特定されるデータ（ここでは、文字情報（ＨＴＭＬ又はＲＳＳに従って記述された情報））の送信を要求する旨を表す情報を送信する。

更に、ＣＰＵは、ステップ９３０にて、ウェブサーバ４２，４３からデータを受信するまで待機する。ＣＰＵは、ウェブサーバ４２，４３からデータを受信すると、「Ｙｅｓ」と判定してステップ９３５へ進む。なお、ＣＰＵは、受信したデータに、音声情報を含むデータ（ＷＡＶＥ形式のファイル、ＭＰ３形式のファイル等）を特定するＵＲＬが含まれる場合には、そのＵＲＬにより特定される音声情報（データ）の送信を要求する旨を表す情報をウェブサーバ４２，４３へ送信し、そのデータをウェブサーバ４２，４３から受信する。

次いで、ＣＰＵは、受信したデータ（ここでは、文字情報（ＨＴＭＬ又はＲＳＳに従って記述された情報））が表す文字列が、上記選択した分野（即ち、データを取得（受信）する基となったキーワードが属する分野）を識別する分野識別情報と対応付けて記憶装置に記憶されている任意のキーワードを、第１の閾値数以上含むか否かを判定する。

いま、上記受信したデータが表す文字列が上記任意のキーワードを第１の閾値数以上含む場合を想定して説明を続ける。

この場合、ＣＰＵは、「Ｙｅｓ」と判定してステップ９４０に進み、その選択した分野を識別する分野識別情報と、上記受信したデータ（文字情報及び音声情報のそれぞれ）と、を対応付けて言語モデル作成サーバ１０の記憶装置に記憶させる。

その後、ＣＰＵは、ステップ９４５にて、上記選択した分野を識別する分野識別情報（第１の分野識別情報）と対応付けて記憶されている文字情報及び音声情報の数であるデータ数を取得する。ＣＰＵは、取得したデータ数が予め設定された閾値数以上であるか否かを判定する。

そして、ＣＰＵは、取得したデータ数が予め設定された閾値数以上である場合、「Ｙｅｓ」と判定してステップ９０５に進み、上記設定されている複数の分野の中から未だ選択されていない１つの分野（次の分野）を選択する。そして、ＣＰＵは、上述した場合と同様に、ステップ９１０〜ステップ９４５の処理を行う。

一方、取得したデータ数が予め設定された閾値数よりも少ない場合、ＣＰＵは、「Ｎｏ」と判定してステップ９１０に進み、上記選択した分野を識別する分野識別情報と対応付けて記憶されている複数のキーワードの中から未だ選択されていない１つのキーワード（次のキーワード）を選択する。そして、ＣＰＵは、上述した場合と同様に、ステップ９１５〜ステップ９４５の処理を行う。

このような処理により、上記設定されている複数の分野のそれぞれに対して、その分野を識別する分野識別情報と対応付けて記憶されている文字情報及び音声情報の数が、上記閾値数以上となるまで、上述したデータの取得が行われる。

次に、言語モデル作成サーバ１０が受信したデータが表す文字列が、上記選択した分野（即ち、データを取得する基となったキーワードが属する分野）を識別する分野識別情報（第１の分野識別情報）と対応付けて記憶装置に記憶されている任意のキーワードを第１の閾値数よりも少ない数だけ含む場合を想定して説明を続ける。

この場合、ＣＰＵは、ステップ９３５に進んだとき、「Ｎｏ」と判定してステップ９５０に進む。そして、ＣＰＵは、当該文字列が、上記選択した分野（第１の分野）以外の任意の１つの分野（他の分野）を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第２の閾値数以上含むか否かを判定する。

いま、この場合において、更に、当該文字列が、上記選択した分野（第１の分野）以外の１つの分野（第２の分野）を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第２の閾値数以上含み、且つ、第１の分野及び第２の分野以外の各分野を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第２の閾値数よりも少ない数だけ含む場合を想定して説明を続ける。

この場合、ＣＰＵは、ステップ９５０にて「Ｙｅｓ」と判定してステップ９５５に進み、上記文字列が、複数の分野のそれぞれに対して、その分野を識別する分野識別情報と対応付けて記憶されている任意のキーワード（その分野に分類されたキーワード）を第２の閾値数以上含むか否かを判定する。

上記仮定に従えば、ＣＰＵは、「Ｎｏ」と判定してステップ９６０に進み、第２の閾値数以上のキーワードを含む分野（ここでは、第２の分野）を識別する分野識別情報（第２の分野識別情報）と、文字情報及び音声情報と、を対応付けて記憶装置に記憶させる。そして、ＣＰＵは、上述した場合と同様に、ステップ９４５以降の処理を実行する。

次に、言語モデル作成サーバ１０が受信したデータが表す文字列が、上記選択した分野（第１の分野）以外の複数の分野（第２の分野及び第３の分野）のそれぞれに対して、その分野を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第２の閾値数以上含む場合を想定して説明を続ける。

この場合、ＣＰＵは、ステップ９５５に進んだとき、「Ｙｅｓ」と判定してステップ９６５に進み、上記文字列が含むキーワードの数が最大となるキーワードが属する分野を識別する分野識別情報と、文字情報及び音声情報と、を対応付けて記憶装置に記憶させる。そして、ＣＰＵは、上述した場合と同様に、ステップ９４５以降の処理を実行する。

次に、言語モデル作成サーバ１０が受信したデータが表す文字列が、上記選択した分野（第１の分野）以外の任意の１つの分野を識別する分野識別情報と対応付けて記憶されている任意のキーワードを、第２の閾値数よりも少ない数だけ含む場合を想定して説明を続ける。

この場合、ＣＰＵは、ステップ９５０に進んだとき、「Ｎｏ」と判定してステップ９４５に直接進み、ステップ９４５以降の処理を実行する。即ち、この場合、ＣＰＵは、文字情報及び音声情報を記憶装置に記憶させない。

また、上記ステップＡ４、ステップＡ５及びステップＡ６の処理をより詳細に説明する。この処理は、図１０にフローチャートにより示した音声情報処理プログラムの処理である。なお、音声情報処理プログラムは、文字情報蓄積プログラムの一部を構成している。

言語モデル作成サーバ１０のＣＰＵは、この音声情報処理プログラムの処理を開始すると、ステップ１００５にて、記憶装置に新たに音声情報が記憶されるまで待機する。

そして、ＣＰＵは、記憶装置に新たに音声情報が記憶されると、「Ｙｅｓ」と判定してステップ１０１０に進み、その音声情報を、その音声情報が表す音声を文字列により表した文字情報に変換する音声認識処理を行う。更に、ＣＰＵは、変換結果である文字情報と、その文字情報が表す文字列内の各単語に対応付けられた信頼度と、を出力する。

次いで、ＣＰＵは、ステップ１０１５にて、上記出力された文字情報（変換結果）が表す文字列から、信頼度が閾値以下である単語（部分）を除去する。そして、ＣＰＵは、ステップ１０２０にて、信頼度が閾値以下である単語が除去された文字情報を、上記音声情報と対応付けて記憶されている分野識別情報と対応付けて記憶装置に記憶させる。
その後、ＣＰＵは、ステップ１００５へ戻り、ステップ１００５〜ステップ１０２０の処理を繰り返し実行する。

また、上記ステップＡ７及びステップＡ８の処理をより詳細に説明する。この処理は、図１１にフローチャートにより示した言語モデル作成プログラムの処理である。言語モデル作成サーバ１０のＣＰＵは、この言語モデル作成プログラムの処理を開始すると、ステップ１１０５にて、ある分野識別情報と対応付けて記憶装置に新たに記憶された文字情報の数が、更新用閾値数以上となるまで待機する。

そして、ある分野識別情報と対応付けて記憶装置に新たに記憶された文字情報の数が、更新用閾値数以上となると、ＣＰＵは、「Ｙｅｓ」と判定してステップ１１１０に進み、その分野識別情報と対応付けて記憶装置に記憶されているすべての文字情報に基づいて言語モデルを作成する。

そして、ＣＰＵは、ステップ１１１５にて、作成した言語モデルを、その言語モデルを作成する基となった文字情報と対応付けて記憶されている分野識別情報と対応付けて記憶装置に記憶させる。これにより、その分野識別情報により識別される分野の言語モデルが更新される。
その後、ＣＰＵは、ステップ１１０５へ戻り、ステップ１１０５〜ステップ１１１５の処理を繰り返し実行する。

このように、文字情報が更新用閾値数だけ取得される毎に言語モデルの更新を行うことにより、すべての文字情報の取得が完了するまで言語モデルの更新を行わない場合よりも、音声情報に基づいて取得される文字情報の認識精度を高めることができる。この結果、より高い精度にて音声認識処理を行うことができる。

次に、音声認識管理サーバ２０は、言語モデル作成サーバ１０により作成された言語モデルに基づいて、音声認識利用端末３０のユーザＵＡにより入力された音声情報を文字情報に変換する音声認識処理を行う。

より具体的に述べると、音声認識利用端末３０は、図１２のシーケンス図に示したように、分野識別情報の入力を受け付ける（ステップＤ１）。本例では、音声認識利用端末３０は、分野識別情報の入力をユーザＵＡに促す画像をディスプレイに表示させる。

そして、ユーザＵＡは、入力装置（本例では、マウス及びキーボード）を介して分野識別情報を音声認識利用端末３０に入力する。これにより、音声認識利用端末３０は、入力された分野識別情報を含む音声認識処理開始要求を音声認識管理サーバ２０へ送信する（ステップＤ２）。

音声認識管理サーバ２０は、音声認識利用端末３０から音声認識処理開始要求を受信すると、受信した音声認識処理開始要求に含まれる分野識別情報を含む言語モデル要求を言語モデル作成サーバ１０へ送信する（ステップＥ１）。

言語モデル作成サーバ１０は、音声認識管理サーバ２０から言語モデル要求を受信すると、受信した言語モデル要求に含まれる分野識別情報と対応付けて記憶されている最新の言語モデルを音声認識管理サーバ２０へ送信する（ステップＡ９）。

音声認識管理サーバ２０は、言語モデル作成サーバ１０から言語モデルを受信すると、処理開始通知を音声認識利用端末３０へ送信する（ステップＥ２）。

音声認識利用端末３０は、音声認識管理サーバ２０から処理開始通知を受信すると、音声情報の入力を受け付ける（ステップＤ３）。本例では、音声認識利用端末３０は、音声情報の入力をユーザＵＡに促す画像をディスプレイに表示させる。

そして、ユーザＵＡは、入力装置（本例では、マイク）を介して音声情報を音声認識利用端末３０に入力する。これにより、音声認識利用端末３０は、入力された音声情報を音声認識管理サーバ２０へ送信する（ステップＤ４）。

音声認識管理サーバ２０は、音声認識利用端末３０から音声情報を受信すると、受信した音声情報と、言語モデル作成サーバ１０から受信した言語モデルと、に基づいて音声認識処理を行う（ステップＥ３）。そして、音声認識管理サーバ２０は、音声認識処理を実行することにより出力された文字情報（変換結果）を音声認識利用端末３０へ送信する（ステップＥ４）。

音声認識利用端末３０は、音声認識管理サーバ２０から文字情報を受信すると、受信した文字情報を表す画像をディスプレイに表示させる（ステップＤ５）。
更に、音声認識利用端末３０は、音声認識処理を終了させる旨を表す音声認識処理終了指示の入力を受け付ける。

そして、ユーザＵＡは、入力装置（本例では、マウス及びキーボード）を介して音声認識処理終了指示を音声認識利用端末３０に入力する。これにより、音声認識利用端末３０は、音声認識処理終了要求を音声認識管理サーバ２０へ送信する（ステップＤ６）。

音声認識管理サーバ２０は、音声認識利用端末３０から音声認識処理終了要求を受信すると、音声認識処理の実行を終了する（ステップＥ５）。

以上、説明したように、本発明による音声認識システムの実施形態によれば、音声認識システム１は、キーワードと対応付けられたデータから抽出した文字情報を、分野毎に記憶する。そして、音声認識システム１は、分野毎に記憶された文字情報に基づいて音声認識処理を行う。この結果、音声認識システム１は、分野毎に比較的多数の文字情報が予め記憶されていない場合であっても、比較的高い精度にて音声認識処理を行うことができる。

また、上記実施形態において、音声認識システム１は、音声情報をデータとして取得し、且つ、音声認識処理を行うことによって、取得した音声情報を文字情報に変換し、変換した文字情報を分野識別情報と対応付けて言語モデル作成サーバ１０の記憶装置に記憶させる。即ち、音声認識システム１は、音声情報が表す音声（即ち、話し言葉）を文字列により表した文字情報を記憶（蓄積）する。

そして、言語モデル作成サーバ１０は、その文字情報に基づいて言語モデルを作成する。更に、音声認識管理サーバ２０は、その言語モデルに基づいて音声認識処理を行う。これにより、音声認識システム１は、より一層高い精度にて音声認識処理を行うことができる。

更に、上記実施形態において、音声認識システム１は、信頼度を算出し、音声認識処理を行うことにより変換された文字情報のうちの、算出した信頼度が閾値よりも大きい部分を記憶するように構成されている。これによれば、音声認識システム１は、音声認識処理を行うことによって変換（取得）された文字情報のうちの、信頼度が高い部分のみを記憶（蓄積）する。これにより、音声認識システム１は、より一層高い精度にて音声認識処理を行うことができる。

また、上記実施形態において、音声認識システム１は、ウェブサーバ４２，４３から取得したデータが、そのデータを取得する基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶されているキーワードを、第１の閾値数以上含む場合に、当該データから抽出した文字情報を記憶するように構成されている。

これによれば、音声認識システム１は、ある分野識別情報と対応付けて記憶されているキーワードを、第１の閾値数以上含まないデータから抽出した文字情報を、その分野識別情報と対応付けて記憶しない。従って、分野識別情報と対応付けて記憶される文字情報が、その分野識別情報により識別される分野と比較的強い相関を有する可能性を高めることができる。これにより、音声認識システムは、より一層高い精度にて音声認識処理を行うことができる。

なお、本発明は上記実施形態に限定されることはなく、本発明の範囲内において種々の変形例を採用することができる。例えば、上記実施形態において、言語モデル作成サーバ１０及び音声認識管理サーバ２０は、互いに独立した２つのサーバ装置であった。ところで、上記実施形態の変形例は、言語モデル作成サーバ１０及び音声認識管理サーバ２０に代えて、言語モデル作成サーバ１０の機能及び音声認識管理サーバ２０の機能を有する１つのサーバ装置を備えていてもよい。

また、上記実施形態の変形例において、言語モデル作成サーバ１０は、言語モデル作成サーバ１０の機能が音声認識処理部５６を含まないように、構成されていてもよい。この場合、言語モデル作成サーバ１０は、音声認識管理サーバ２０の機能である音声認識処理部６１を用いて、音声情報を文字情報へ変換するように構成されていることが好適である。

具体的に述べると、言語モデル作成サーバ１０は、音声情報を音声認識管理サーバ２０へ送信する。そして、音声認識管理サーバ２０は、受信した音声情報を、音声認識処理を行うことにより文字情報に変換し、その文字情報を言語モデル作成サーバ１０へ送信する。次いで、言語モデル作成サーバ１０は、音声認識管理サーバ２０から受信した文字情報を記憶装置に記憶させる。このようにして、言語モデル作成サーバ１０は、音声認識管理サーバ２０の音声認識処理部６１を用いて、音声情報を文字情報へ変換することができる。

また、上記実施形態の変形例において、言語モデル作成サーバ１０は、図１３に示したように、言語モデル作成サーバ１０の機能がフィルタ処理部５７を含まないように、構成されていてもよい。

更に、上記実施形態において、言語モデル作成サーバ１０は、ウェブサーバ４２，４３から受信した音声情報を変換した文字情報と、ウェブサーバ４２，４３から受信した文字情報から抽出した文字情報と、の両方を記憶装置に記憶させるように構成されていた。ところで、上記実施形態の変形例において、言語モデル作成サーバ１０は、図１４に示したように、ウェブサーバ４２，４３から受信した音声情報を変換した文字情報のみを記憶装置に記憶させるように構成されていてもよい。

また、上記実施形態の他の変形例において、言語モデル作成サーバ１０は、図１５に示したように、ウェブサーバ４２，４３から受信した文字情報から抽出した文字情報のみを記憶装置に記憶させるように構成されていてもよい。即ち、この場合、言語モデル作成サーバ１０の機能は、音声情報記憶部５５〜フィルタ処理部５７を含まない。

更に、上記実施形態の他の変形例において、言語モデル作成サーバ１０は、図１６に示したように、文字情報に基づいて言語モデルを作成しないように構成されていてもよい。即ち、この場合、言語モデル作成サーバ１０の機能は、言語モデル作成部５８及び言語モデル記憶部５９を含まない。また、この場合、音声認識管理サーバ２０は、言語モデル作成サーバ１０の記憶装置に記憶されている文字情報に基づいて音声認識処理を行うように構成されていることが好適である。

本発明は、音声情報を文字情報に変換する処理を行う音声認識システム等に適用可能である。

本発明の実施形態に係る音声認識システムの概略構成を表す図である。図１に示した音声認識システムの機能の概略を表すブロック図である。言語モデル作成サーバの記憶装置に互いに対応付けて記憶されている、分野識別情報とキーワードとの組を複数含むテーブルである。ウェブサーバから受信されるデータのうちの、ＨＴＭＬに従って記述されたデータが表す文字列を示した図である。ウェブサーバから受信されるデータのうちの、ＲＳＳに従って記述されたデータが表す文字列を示した図である。言語モデル作成サーバの記憶装置に互いに対応付けて記憶されている、分野識別情報と文字情報との組を複数含むテーブルである。言語モデル作成サーバが信頼度に基づいて実行するフィルタ処理の作動を説明するための概念図である。言語モデル作成サーバがウェブサーバからデータを取得し、取得したデータに基づいて言語モデルを作成する際の言語モデル作成サーバ、検索用ウェブサーバ及びウェブサーバの作動を示したシーケンス図である。言語モデル作成サーバのＣＰＵが実行するデータ取得プログラムを示したフローチャートである。言語モデル作成サーバのＣＰＵが実行する音声情報処理プログラムを示したフローチャートである。言語モデル作成サーバのＣＰＵが実行する言語モデル作成プログラムを示したフローチャートである。音声認識管理サーバが音声認識処理を実行する際の言語モデル作成サーバ、音声認識管理サーバ及び音声認識利用端末の作動を示したシーケンス図である。実施形態の変形例に係る音声認識システムの機能の概略を表すブロック図である。実施形態の変形例に係る音声認識システムの機能の概略を表すブロック図である。実施形態の変形例に係る音声認識システムの機能の概略を表すブロック図である。実施形態の変形例に係る音声認識システムの機能の概略を表すブロック図である。

符号の説明

１音声認識システム
１０言語モデル作成サーバ
２０音声認識管理サーバ
３０音声認識利用端末
４１検索用ウェブサーバ
４２，４３ウェブサーバ
５１キーワード記憶部
５２データ取得部
５３データ分類処理部
５４文字情報記憶部
５５音声情報記憶部
５６音声認識処理部
５７フィルタ処理部
５８言語モデル作成部
５９言語モデル記憶部
６１音声認識処理部
７１音声情報入力部
７２文字情報出力部
ＮＷ１，ＮＷ２通信回線

Claims

分野毎に分類されたキーワードとしての文字列を記憶するキーワード記憶手段と、
前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）に従って記述されたＨＴＭＬデータ又はＲＳＳ（ＲｉｃｈＳｉｔｅＳｕｍｍａｒｙ）に従って記述されたＲＳＳデータ、を特定するためのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を受信し、当該受信されたＵＲＬにより特定される文字データを当該ＵＲＬにより特定されるウェブサーバから取得し、当該取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、
を備え、
前記文字情報記憶処理手段は、音声を表す音声データを特定するＵＲＬが前記取得された文字データに含まれる場合、当該ＵＲＬにより特定される音声データを当該ＵＲＬにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成され、
音声を表す音声データと、前記分野識別情報と、を受け付けるとともに、当該受け付けられた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行するように構成された音声認識システム。
請求項１に記載の音声認識システムであって、
前記文字情報記憶処理手段は、前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも１つを、前記文字情報として抽出し、当該抽出された文字情報を、当該文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された音声認識システム。
請求項１又は請求項２に記載の音声認識システムであって、
前記受け付けられた分野識別情報と対応付けて記憶されている文字情報に基づいて、１つの文において、ある単語が他の単語とともに存在する確率を表す情報を含む言語モデルを作成し、当該作成した言語モデルに基づいて前記音声認識処理を行うように構成された音声認識システム。
請求項３に記載の音声認識システムであって、
前記受け付けられた分野識別情報と対応付けて新たに記憶された文字情報の数が予め設定された更新用閾値数以上となった場合、前記言語モデルを作成するように構成された音声認識システム。
請求項１乃至請求項４のいずれかに記載の音声認識システムであって、
前記キーワード記憶手段は、キーワードと、当該キーワードが属する分野を識別する分野識別情報と、を対応付けて記憶するように構成され、
前記文字情報記憶処理手段は、前記取得された文字データが、当該文字データを取得する基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶されているキーワードを、予め設定された第１の閾値数以上含む場合に、当該文字データから抽出された前記文字情報を当該分野識別情報と対応付けて記憶するように構成された音声認識システム。
請求項５に記載の音声認識システムであって、
前記文字情報記憶処理手段は、前記取得された文字データが、当該文字データを取得する基となったキーワードが属する分野を識別する分野識別情報である第１の分野識別情報と対応付けて記憶されているキーワードを、前記第１の閾値数よりも少ない数だけ含み、且つ、当該文字データが、当該第１の分野識別情報以外の第２の分野識別情報と対応付けて記憶されているキーワードを予め設定された第２の閾値数以上含む場合、当該文字データから抽出された前記文字情報を当該第２の分野識別情報と対応付けて記憶するように構成された音声認識システム。
請求項６に記載の音声認識システムであって、
前記文字情報記憶処理手段は、前記取得された文字データが、当該文字データを取得する基となったキーワードが属する分野を識別する分野識別情報である第１の分野識別情報と対応付けて記憶されているキーワードを、前記第１の閾値数よりも少ない数だけ含み、且つ、当該文字データが、複数の分野のそれぞれに対して、その分野に分類されたキーワードを前記第２の閾値数以上含む場合、当該文字データが含むキーワードの数が最大となるキーワードが属する分野を識別する分野識別情報と、当該文字データから抽出された前記文字情報を対応付けて記憶するように構成された音声認識システム。
分野毎に分類されたキーワードとしての文字列を予め記憶し、
前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）に従って記述されたＨＴＭＬデータ又はＲＳＳ（ＲｉｃｈＳｉｔｅＳｕｍｍａｒｙ）に従って記述されたＲＳＳデータ、を特定するためのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を受信し、
前記受信されたＵＲＬにより特定される文字データを当該ＵＲＬにより特定されるウェブサーバから取得し、
前記取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、前記キーワードが属する分野を識別する分野識別情報と対応付けて記憶し、
音声を表す音声データを特定するＵＲＬが前記取得された文字データに含まれる場合、当該ＵＲＬにより特定される音声データを当該ＵＲＬにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶し、
音声を表す音声データと、前記分野識別情報と、を受け付け、
前記受け付けられた分野識別情報と対応付けて記憶されている文字情報に基づいて当該受け付けた音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行する、音声認識方法。
請求項８に記載の音声認識方法であって、
前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも１つを、前記文字情報として抽出し、
前記抽出された文字情報を、前記文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された音声認識方法。
分野毎に分類されたキーワードとしての文字列を記憶するキーワード記憶手段と、
前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）に従って記述されたＨＴＭＬデータ又はＲＳＳ（ＲｉｃｈＳｉｔｅＳｕｍｍａｒｙ）に従って記述されたＲＳＳデータ、を特定するためのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を受信し、当該受信されたＵＲＬにより特定される文字データを当該ＵＲＬにより特定されるウェブサーバから取得し、当該取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、当該キーワードが属する分野を識別する分野識別情報と対応付けて記憶する文字情報記憶処理手段と、
を備え、
前記文字情報記憶処理手段は、音声を表す音声データを特定するＵＲＬが前記取得された文字データに含まれる場合、当該ＵＲＬにより特定される音声データを当該ＵＲＬにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された文字情報蓄積装置。
請求項１０に記載の文字情報蓄積装置であって、
前記文字情報記憶処理手段は、前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも１つを、前記文字情報として抽出し、当該抽出された文字情報を、当該文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された文字情報蓄積装置。
分野毎に分類されたキーワードとしての文字列を予め記憶し、
前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）に従って記述されたＨＴＭＬデータ又はＲＳＳ（ＲｉｃｈＳｉｔｅＳｕｍｍａｒｙ）に従って記述されたＲＳＳデータ、を特定するためのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を受信し、
前記受信されたＵＲＬにより特定される文字データを当該ＵＲＬにより特定されるウェブサーバから取得し、
前記取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、前記キーワードが属する分野を識別する分野識別情報と対応付けて記憶し、
音声を表す音声データを特定するＵＲＬが前記取得された文字データに含まれる場合、当該ＵＲＬにより特定される音声データを当該ＵＲＬにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶する、文字情報蓄積方法。
請求項１２に記載の文字情報蓄積方法であって、
前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも１つを、前記文字情報として抽出し、
前記抽出された文字情報を、前記文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された文字情報蓄積方法。
文字情報蓄積装置に、
分野毎に分類されたキーワードとしての文字列を予め記憶し、
前記記憶されているキーワードを検索用ウェブサーバへ送信することにより、当該検索用ウェブサーバから、当該キーワードを含む文字データとしての、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）に従って記述されたＨＴＭＬデータ又はＲＳＳ（ＲｉｃｈＳｉｔｅＳｕｍｍａｒｙ）に従って記述されたＲＳＳデータ、を特定するためのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を受信し、
前記受信されたＵＲＬにより特定される文字データを当該ＵＲＬにより特定されるウェブサーバから取得し、
前記取得された文字データから、当該文字データの内容を表す、予め定められた部分を文字情報として抽出し、当該抽出された文字情報を、前記キーワードが属する分野を識別する分野識別情報と対応付けて記憶し、
音声を表す音声データを特定するＵＲＬが前記取得された文字データに含まれる場合、当該ＵＲＬにより特定される音声データを当該ＵＲＬにより特定されるウェブサーバから取得し、且つ、当該取得された音声データを、当該音声データが表す音声を表した文字列としての文字情報に変換する音声認識処理を実行し、当該変換後の文字情報が、当該音声を実際に表している確率を表すパラメータである信頼度を単語毎に算出し、当該変換後の文字情報のうちの、当該算出した信頼度が予め設定された閾値よりも大きい部分を、当該音声データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶する、処理を実行させるための文字情報蓄積プログラム。
請求項１４に記載の文字情報蓄積プログラムであって、
前記処理は、
前記取得された文字データから、予め定められた要素を構成する文字列、及び、予め定められた要素の予め定められた属性の値を構成する文字列の少なくとも１つを、前記文字情報として抽出し、
前記抽出された文字情報を、前記文字データが取得される基となったキーワードが属する分野を識別する分野識別情報と対応付けて記憶するように構成された文字情報蓄積プログラム。