JP5185807B2 - 音声検索装置、音声検索方法及び音声検索プログラム - Google Patents

音声検索装置、音声検索方法及び音声検索プログラム Download PDF

Info

Publication number
JP5185807B2
JP5185807B2 JP2008336053A JP2008336053A JP5185807B2 JP 5185807 B2 JP5185807 B2 JP 5185807B2 JP 2008336053 A JP2008336053 A JP 2008336053A JP 2008336053 A JP2008336053 A JP 2008336053A JP 5185807 B2 JP5185807 B2 JP 5185807B2
Authority
JP
Japan
Prior art keywords
predicted word
user
search
language model
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008336053A
Other languages
English (en)
Other versions
JP2010146532A (ja
Inventor
健一 磯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2008336053A priority Critical patent/JP5185807B2/ja
Publication of JP2010146532A publication Critical patent/JP2010146532A/ja
Application granted granted Critical
Publication of JP5185807B2 publication Critical patent/JP5185807B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Description

本発明は、言語モデルを用いてユーザ端末からの音声入力を音声認識し、その認識結果に基づいてインターネット検索を行う音声検索装置等に関する。
従来、インターネット検索は、クライアント端末と検索サーバとの間でユーザが文字入力したテキストを送受信することにより行われている。即ち、クライアント端末のキーボードやテンキー等で入力されたテキストがクエリ(検索要求)として通信回線を介して送信され、検索サーバは、そのクエリに基づいてWebコンテンツの検索を行って、検索結果をクライアント端末に返送する。
近年の携帯電話端末の普及や音声認識技術の研究に伴い、このインターネット検索を音声の入力により行う試みが為されている。具体的には、ユーザがクライアント端末に搭載されたマイクに対してキーワードを音声入力すると、A/D変換等により生成された音声データが検索サーバに送信される。検索サーバでは、クライアント端末から受信した音声データに対して音声認識処理を施して、ユーザが音声入力したキーワードを推測してインターネット検索を行う。
音声検索は、テキスト検索のようにユーザがキーボード等の入力操作を行うことなく、キーワードを発話することで行えるため、ハンズフリーな環境で有用である。但し、検索結果の精度は音声認識処理の精度に大きく依存する。一般には、音声認識の精度を向上させるため、メニュー操作用や経路探索用等の用途・分野別の言語モデルを用意して、その言語モデルの範囲内で音声認識を行う手法がとられている。
しかし、インターネット検索されるキーワードの分野は多岐に渡り、言語モデルの用途・分野を限定することは難しい。そのため、音声検索において検索キーワードを広くカバーするための技術として、次のような技術が知られている。即ち、クライアント端末から入力される検索キーワード(テキスト又は音声)を検索時刻、端末IDと共に検索ログとして記録し、この検索ログに基づいてキーワードの出現頻度を算出し、検索に有効なキーワードを音声認識辞書に登録する技術が知られている(特許文献1参照)。
特開2002−245078号公報
ところで、インターネット検索では、テレビ放送された商品や店名、流行語等がその放送直後に高頻度で検索されるように、時期に応じて高頻度で検索されるキーワードがある。しかし、特許文献1の技術では、ユーザが実際に検索した頻度に基づいてキーワードが言語モデルに登録されるため、ある程度の検索が為されない限り当該キーワードでの音声検索はできない。そのため、今後高頻度で音声検索されうるキーワードについて言語モデルがメンテナンスされないが故に、音声検索は該キーワードに追従することが困難である。
キーワードを人手により入力して言語モデルに登録していくという手法も考えられるが、単に人手で言語モデルを登録しメンテナンスしていく作業は、多くの人手を要する非常に煩雑で、多くの人手を要する。
また、音声検索には、キーワードの表記と読み(あるいは発音記号列)の組合せが必要となる。しかし、特許文献1の技術の場合、検索ログのキーワードは漢字やアルファベット等を含む表記のみであるため、その読みを該表記から推測しなければならない。具体的には、国語辞書や漢和辞書等を用いて読みを推測する場合、例えば「柳楽」という表記では「やなぎらく」と推測してしまう可能性があり、「やぎら」という実際に発音される読み、即ち、ユーザが音声入力する際に読み上げる読みを表記から推測できない場合がある。
本発明は、上記のような従来技術の課題に鑑みて為されたものであり、その目的は、音声検索に有用なキーワードを言語モデルに登録し、音声検索における音声認識精度の低下を抑制することである。
上記の目的をふまえ、本発明は以下のような各態様を含むものであり、また、装置に加え、同様な方法及びコンピュータ・プログラムについても、以下の各態様に準ずるものである。
(1)本発明の一態様の音声検索装置は、
言語モデルを用いてユーザ端末からの音声入力を音声認識し、その認識結果に基づいてインターネット検索を行う音声検索装置において、
ユーザ端末から語彙の表記を含む予測語の入力を受け付ける予測語受付手段と、
前記受け付けた予測語に、その評価値と入力したユーザの識別情報とを対応付けて予測語データベースに記憶する予測語登録手段と、
前記評価値に基づいて前記予測語データベースに記憶されている予測語を選択し、当該予測語により前記言語モデルを更新する言語モデル更新手段と、
前記言語モデルを用いた前記音声入力の音声認識の結果によりインターネット検索を行い、検索結果に応じて予測語の評価値を計上する予測語検索手段と、
前記評価値と前記識別情報に基づいて、前記予測語を入力したユーザにインセンティブを付与するインセンティブ付与手段と、
を備え、
前記予測語登録手段は、前記受け付けた予測語に含まれるデータが表記のみの場合は、読みを含む辞書と照合し、該表記の読みを推測して前記予測語データベースに登録し、
前記言語モデル更新手段は、評価値が規定値未満で且つ登録日時から所定期間経過した予測語に対して、評価値を所定数減算し、規定値未満となった場合に前記予測語データベースおよび前記言語モデルから削除する
ことを特徴としている。
このように、本発明の一態様によれば、ユーザが入力した予測語に対応する評価値を音声入力によるインターネット検索の結果に基づいて更新し、その評価値とユーザの識別情報に基づいて言語モデルを更新すると共に、音声検索の結果に基づいて予測語の評価値を計上して、その表価値に基づいて該予測語を入力したユーザにインセンティブの付与が行われる。
これにより、ユーザが予め入力した予測語のうち、音声検索に有用な予測語を言語モデルに登録することができるため、インターネット検索における音声検索の精度が低下することを抑制することができる。また、言語モデルに登録される予測語を入力したユーザには、インセンティブが付与されるため、ユーザの予測語の入力を促進させることができる。従って、音声検索に有用なキーワードを言語モデルに登録し、音声検索における音声認識精度の低下を抑制することができる。
(2)本発明の他の態様は、上記の態様において、
前記言語モデル更新手段は、前回の言語モデルの更新以降に前記予測語データベース中で評価値が更新された予測語の数が一定数を超えた場合に言語モデルを更新する
ことを特徴としている。
このように、本発明の一態様によれば、表記と読みとを含む予測語を入力したユーザにインセンティブが付与される。このため、インセンティブの付与という対価により、ユーザの予測語の入力を促進させることができる。
(3)本発明の他の態様は、上記の態様において、
前記予測語登録手段は、
前記受け付けた予測語が前記予測語データベースに既に記憶されている場合には、前記ユーザの識別情報をその予測語の受付順序で当該予測語に対応付けて複数記憶し、
前記インセンティブ付与手段は、
前記追加記憶した予測語を入力したユーザに前記受付順序に応じたインセンティブを付与することを特徴とする。
このように、本発明の一態様によれば、予測語の受付順序に応じたインセンティブをユーザに付与する。このため、例えば、受付順序が早いユーザに高いインセンティブを付与することで、ユーザからの予測語の入力を促進させることができるようになる。
(4)本発明の他の態様は、上記のいずれかの態様において、
前記登録判定手段は、
前記予測語データベースに基づいて、前記音声入力を行ったユーザと前記予測語を入力したユーザとが同一であるか否かの判定を更に行い、
前記予測語検索手段は、
前記音声入力を行ったユーザと前記予測語を入力したユーザとが同一であると判定された場合には、前記予測語データベースにおいて前記音声認識された結果に含まれる予測語の評価値の計上を行わないことを特徴とする。
このように、予測語の入力を行ったユーザが、その予測語を音声入力して音声検索を行った場合には、評価値が計上されない。このため、予測語を入力したユーザ以外のユーザによる音声検索により該予測語を言語モデルに残すか否かの評価を行うことができ、より有用なキーワードを言語モデルに含めていくことができる。
以上のように、本発明によれば、音声検索に有用なキーワードを言語モデルに登録し、音声検索における音声認識精度の低下を抑制することとなる。
次に、本発明を実施するための最良の形態(以下「本実施形態」と呼ぶ)について、図に沿って説明する。なお、背景技術や課題などで既に述べた内容と共通の前提事項については適宜省略する。
〔検索サーバの機能構成〕
本実施形態は、音声検索装置に相当する図1の構成図に示す検索サーバ3に関するものであるが、本発明は、音声検索装置に対応する情報処理の方法及びコンピュータ・プログラムとしても把握可能である。
図1は、本発明の音声検索装置に対応する検索サーバ3と、ユーザ端末100とのシステム構成例を示すブロック図である。図1に示すように、検索サーバ1は、パーソナルコンピュータ100aや携帯端末100b等の複数のユーザ端末100と通信ネットワークNを介して通信接続されている。
検索サーバ1は、音声検索機能を有し、ユーザによって音声入力されたキーワードを音声認識により取得して、そのキーワードに基づいてインターネット検索(ウェブ検索)を行う。そして、その検索結果を表すウェブページを生成して、ユーザ端末100に返送する。
ユーザ端末100は、キーボードやテンキー等のテキスト入力部と、マイクロフォンの音声入力部(図示略)と、各種演算処理を行う演算制御部(CPU(Central Processor Unit)やROM(Read Only Memory)、RAM(Random Access Memory)など)と、表示部と、通信部とを備えて構成される。
ユーザは、ユーザ端末100を操作することによりマイクロフォンから音声の入力を行うことができる。ユーザがユーザ端末100のマイクロフォンに対して入力した音声は、該ユーザ端末100が有するA/D変換等の音声処理により音声データに変換される。そのデジタル化された音声データは、通信ネットワークNを介して検索サーバ1に対する検索要求(音声クエリ)として送信される。ユーザ端末100は、検索サーバ1から検索結果を受信すると、当該検索結果を表示部に表示させる。
検索サーバ1は、言語モデルを用いて音声クエリに音声認識処理を施して、該音声クエリからキーワードを取得する。言語モデルについては、キーワード(語彙)の読み(発音記号)を記憶したデータテーブルであり、詳しくは後述する。
ユーザは、検索キーワードを各々に選定して音声入力することとなるが、インターネット検索において検索要求されるキーワードは多岐の分野に渡るため、ユーザから要求されたキーワードの読みを予め言語モデルに記憶しておけるという保証はできない。
そのため、検索サーバ1は、音声検索により多く検索されるであろうキーワードをユーザに予測させる代わりに、該ユーザにインセンティブを付与することで、言語モデルに用いる新たな語彙(読みと表記)の登録を促進させる。
図2は、検索サーバ1の機能構成を示すブロック図である。図2によれば、検索サーバ1は、ログイン処理部11、予測語受付部13、予測語登録部17、音声クエリ受付部19、音声認識エンジン21、予測語評価部23、インセンティブ付与部25、検索エンジン27及び言語モデル更新部29を備えて構成される。これらの機能部は、演算処理部やメモリ、通信部等が協働することにより実現される。
また、検索サーバ1は、ユーザ情報データベース(Database;以下「DB」と略す)31、言語モデル33、予測語DB35及びコンテンツDB37を備えて構成される。これらのDBは、HDD等の記憶装置に記憶される。
以下、検索サーバ1が有する各機能部について説明する。
ログイン処理部11は、ユーザ端末100を利用するユーザが正規のユーザであるか否かをユーザ情報DB31に基づいて判定する認証処理を行う。図3(a)にユーザ情報DB31のデータ構成の一例を示す。図3(a)に示すようにユーザ情報DB31は、ユーザID、氏名、ポイント、パスワード等、個々のユーザに関する情報を対応付けて記憶している。
ログイン処理部11は、ユーザ端末100で入力されたユーザIDとパスワードとを受信すると、そのユーザIDとパスワードとの対応関係が正しいかをユーザ情報DB31に基づいて判定する。その判定の結果、正規のユーザであると判定した場合は、ユーザ端末100との間にセッションを確立する。
また、ユーザ情報DB31が記憶するポイントは、ユーザに対して付与されるインセンティブであり、例えば、ウェブサービスを利用する上で使用される電子通貨等である。ユーザは、このポイントの値に応じてウェブサービスを享受できるようになる。
予測語受付部15は、ユーザ端末100により入力された読みと表記との組合せ、即ち、予測語を受信する。例えば、予測語を入力するためのウェブページをユーザ端末100に送信し、該ウェブページ上で入力された予測語を取得する。
言語モデル33は、図3(b)に示すようにキーワード毎の読み(発音記号)と表記とを対応付けたキーワードを記憶するデータテーブルである。尚、言語モデル33は、音声認識に必要なキーワードの読みを記憶していればよく、その読みに対応した表記は別の関係データベースに記憶しておくこと可能である。
また、ユーザの音声入力として単独のキーワードの孤立発声だけでなく、複数のキーワードを含む発話を受理するシステムの場合は、言語モデル33にはキーワードの表記と読みだけでなく、キーワード以外の語彙(助詞や助動詞などの付属語など)の読みと、すべての語彙の間の連接情報(連接確率など)を含むことは当業者によく知られている。
また、予測語DB35は、図3(c)に示すように、予測語の読み及び表記と、該表記により行った音声検索に基づく評価値と、該予測語を登録した登録日時と、該予測語を登録した登録ユーザ(ユーザID)とを対応付けて記憶するデータテーブルである。
本実施形態における予測語DB35は、第1登録ユーザ、第2登録ユーザ、第3登録ユーザと、3名までのユーザを予測語の入力を受け付けた順序で記憶する。尚、この登録ユーザ数は、一又は複数で任意に設定可能である。
予測語登録部17は、予測語受付部13が受理した予測語を予測語DB35に記憶する。このとき、予測語登録部17は、同じ予測語を入力したユーザ数に応じて、予測語の登録を行う。
具体的には、予測語が予測語DB35に未登録であり、同じ予測語を過去に登録したユーザがいない場合は、その予測語と、評価値の初期値(100)と、受け付けた日時(登録日時)と、該予測語を入力したユーザのユーザID(第1登録ユーザ)とを予測語DB35に記憶する。
また、予測語が予測語DB35に既に登録されており、更に、登録ユーザが所定のユーザ数(例えば、3名)を満たしている場合には、該予測語の登録を行わない。一方、登録ユーザが所定のユーザ数を満たしていない場合は、予測語を入力したユーザのユーザIDを、その受付順序に従って登録ユーザとして順次記憶する。
例えば図3(c)において、読みが「エターナリー」、表記が「Eternally」の予測語を初めて登録したユーザは、ユーザID‘12345’の第1登録ユーザであり、その次に登録したユーザはユーザID‘67890’の第2登録ユーザであることを示している。
また、第3登録ユーザとしては、ユーザIDが‘ABCDE’のユーザが登録されている。このように、同一の予測語を複数のユーザが登録した場合にも、それを受け付けた順序でユーザIDを所定数、登録していく。
尚、ユーザが入力した予測語に含まれるデータが表記のみの場合は、国語辞書、漢和辞書、英和辞書などの辞書DBと照らし合わせることで、該表記の読みを推測して予測語DB35に登録することとしてもよい。また、予測語を始めて登録したユーザには、登録個数の上限(例えば、1日10個)を与え、ユーザ情報DB31のポイント(インセンティブ)が高いユーザは多くの予測語を登録できるような制限を加えてもよい。
音声クエリ受付部19は、ユーザの音声入力によりユーザ端末100から送信された音声クエリ(音声データ)を受信する。
音声認識エンジン21は、ユーザ端末100から受け付けた音声クエリに対して言語モデル33を用いて音声認識処理を施して、ユーザが音声入力したキーワードの表記を取得し、検索エンジン27に出力する。
音声認識処理としては、入力された音声データに対して音響分析を行い、該音声データから特徴量を取得し、その特徴量に基づいて、音響モデル(例えば、隠れマルコフモデル)と言語モデル33を参照して、最も類似度の高いキーワード(またはキーワードを含む複数の単語の列)を認識結果として出力する。尚、音声認識処理の技術としては、適宜公知の技術を適用可能である。
検索エンジン27は、音声認識エンジン21から受け取った表記を検索キーワードとしてコンテンツDB37を検索して、検索結果を表すウェブページを作成して、ユーザ端末100に送信する。このとき、検索エンジン27は、検索結果を音声により読み上げる変換処理を行って、音声データとしてユーザ端末100に送信することとしてもよい。
コンテンツDB37は、インターネット上のウェブページをインデックス化して、そのウェブページのURLと共に格納したデータベースである。いわゆる、ロボット型検索エンジン等によりインターネット上のウェブページが収集され、そのウェブページに対して形態素解析等が施されてインデックス化される。
予測語評価部23は、検索エンジン27の検索結果などを利用して予測語DB35に含まれる予測語の評価値を計上する。
具体的な評価値の更新方法の例としては、検索エンジン27が検索を行った予測語DB35上の表記に対応付けられた評価値を、その検索回数に応じてインクリメント(1加算)して計上する。或いは、検索結果のウェブページに予測語が含まれている個数を計数して、その個数に比例して評価値を増加させることとしてもよいし、ユーザが検索結果のウェブページをクリックした場合にそのウェブページの検索に使用した予測語の評価値を増加させることとしてもよい。
言語モデル更新部29は、言語モデルDB33に記憶されている表記(を含む語彙)の情報を予測語DB35に基づいて更新する。具体的には、予測語DB35に記憶された評価値が規定値(例えば、100)以上となった場合には、その評価値に対応する表記が多くのユーザにより音声検索される有用なキーワードであると評価して、該予測語の情報を予測語DB35と言語モデル33とに残す。ここで、予測語の初期登録時の評価値の初期値をその規定値以上に設定しておくことで、予測語の登録時には言語モデル33に登録させるようにすることができる。
また、評価値が規定値未満で且つ登録日時から所定期間(例えば、10日)経過した予測語は、音声検索には用いられないキーワードであると評価して、評価値を所定数(例えば、10)減算していき、規定値未満となった場合に予測語DB35および言語モデル33から削除するようにしてもよい。これにより、音声検索が余り為されない予測語が言語モデル33に登録されてしまうことを防止できる。
尚、言語モデル更新部29が言語モデル33を更新するタイミングは任意であり、例えば、次ようにしてもよい。即ち、前回の言語モデル33の更新以降に予測語DB35中で評価値が更新された予測語の数が一定数を超えた場合に言語モデル35を更新したり、或いは、予め指定した時間毎に予測語DB33に基づいて言語モデル35を更新することとしてもよい。
インセンティブ付与部25は、予測語DB35に含まれる各予測語に対応付けられた登録ユーザに対してインセンティブの付与を行う。このインセンティブは、予測語を登録した順序に応じて設定することとしてよく、例えば、第1登録ユーザに対して付与するインセンティブ(例えば、100ポイント)を基準に、第2登録ユーザに対してはその5割(例えば、50ポイント)、第3登録ユーザには更に5割(例えば、25ポイント)というように、登録順序が早いユーザに高いインセンティブを付与してもよい。インセンティブ付与部25の動作は、任意のタイミングで実行可能であり、たとえば一月に一度などのタイミングで行えばよい。
〔検索サーバの処理動作〕
次に、図4及び図5のフローチャートを用いて、検索サーバ1の具体的な処理・動作について説明する。尚、このフローチャートの処理は、検索サーバ1が有する演算制御部が記憶部に記憶されたプログラム(予測語登録プログラム及び音声検索プログラム)に基づいて行われるものである。
先ず、検索サーバ1は、図4に示す予測語登録処理を開始すると、ユーザ端末100からのログイン要求に対してログインページを作成して送信することで、ユーザにユーザIDとパスワードとの入力を促す。そして、ログインページに対して入力されたユーザIDとパスワードとを受信して、ユーザ情報DB31に基づいてユーザ認証を行う(ステップS1:ログイン処理)。
そして、ユーザ認証の結果、正規のユーザであることを確認すると、ユーザ端末100との間でセッションを確立し、そのユーザ端末100で入力された予測語を受信して、該予測語の受け付ける(ステップS3)。このとき、予測語を入力するウェブページを作成して、ユーザに入力を促すこととしてもよい。
検索サーバ1は、ユーザ端末100から受け付けた予測語が予測語DB35に登録済みであるか否かを判定する。このとき、予測語が未登録であると判定すると(ステップS5;No)、ユーザ端末100とのセッション情報(例えば、Cookie情報)に基づいてログイン処理時に入力されたユーザIDを取得し(ステップS9)、そのユーザIDを第1登録ユーザとして予測語に対応付けて予測語DB35に記憶する(ステップS11)。
また、ステップS5において、予測語が予測語DB35に登録済みであると判定した場合には(ステップS5;Yes)、その予測語に対応した登録ユーザが所定の人数以上となっているか否かを判定する(ステップS7)。
検索サーバ1は、予測語に対応した第1登録ユーザから第3登録ユーザまでの全てにユーザIDが記憶されており、登録ユーザが所定の人数以上となっていると判定した場合には(ステップS7;Yes)、予測語登録処理を終了する。
また、第2登録ユーザまたは第3登録ユーザにユーザIDが記憶されておらず、登録ユーザ数が所定人数以上となっていないと判定した場合には(ステップS7;No)、ステップS9に処理を移行して、ログイン処理時に入力されたユーザIDを取得し(ステップS9)、予測語を受け付けた順序に基づいてそのユーザIDを第2登録ユーザまたは第3登録ユーザに記憶する(ステップS11)。
以上の予測語登録処理により、予測語を入力したユーザのユーザIDが予測語の受付順序で予測語DB35に記憶されていくこととなる。
次に、検索サーバ1は、図5に示す音声検索処理を開始すると、予測語登録処理と同様にログイン処理を行う(ステップS21)。尚、このログイン処理は、ユーザ端末100との間にセッションが確立されている場合には省略してもよい。
そして、ユーザ端末100で音声入力された音声クエリ(音声データ)を受信して、該音声クエリを受け付け(ステップS23)、言語モデル25を用いた音声認識処理を施す(ステップS25)。その音声認識処理の結果得られた読み(発音記号)に対応する表記を検索キーワードとしてインターネット検索を行い、検索結果を記述したウェブページをユーザ端末100に返送する(ステップS29)。
検索サーバ1は、インターネット検索を行った表記に対応付けられた登録ユーザと、音声クエリを入力したログインユーザとが同一であるか否かを判定する(ステップS31)。その結果、ログインユーザが予測語の登録ユーザと異なると判定した場合は(ステップS31;No)、その予測語に対応した評価値を1加算する(ステップS33)。
このとき、言語モデル更新部29は、予測語DB35の評価値を監視し、規定値以上となった評価値に対応する予測語に基づいて言語モデル33を更新する。この言語モデルB33の更新により、次回以降の音声検索の際に、言語モデル33に基づいて表記が取得されてインターネット検索が行われることとなる。
また、検索サーバは、評価値が規定値以上となったか否かを判定して(ステップS35)、評価値が規定値未満である場合には(ステップS35;No)、そのまま音声検索処理を終了する。また、ステップS31において、ログインユーザと予測語の登録ユーザとが同一であると判定した場合(ステップS31;Yes)、検索サーバ1は、評価値をインクリメントすることなく音声検索処理を終了する。
このため、予測語を登録したユーザが、その予測語を音声入力して音声検索をしようとした場合に、評価値がインクリメントされないよう制御される。従って、予測語の登録ユーザが評価値を計上させてインセンティブの付与を受けようとする不正を回避することができる。
一方、ステップS35において予測語に対応した評価値が規定値以上になったと判定した場合(ステップS35;Yes)、検索サーバ1は、予測語DB35において予測語に対応付けられた登録ユーザにインセンティブの付与を行う(ステップS37)。具体的には、上述したように予測語の受付順序に基づいた割合でインセンティブの付与率を決定して、該インセンティブをユーザ情報DB31のポイントに加算する。
このように、ユーザが登録した予測語が他のユーザにより所定回数以上検索されていくと、その予測語の登録ユーザに対してインセンティブが付与されるため、ユーザの予測語の入力を促進させることができる。
以上、上述した実施形態によれば、ユーザが入力した予測語での評価値が音声検索の結果に応じて規定値以上となると、予測語の登録ユーザにはインセンティブが付与される。このため、音声検索で用いられるであろうキーワードをユーザに予測させることで、ユーザにはインセンティブの付与を受けられる可能性が与えられる。従って、インセンティブの付与が予測語の登録の対価となることで、ユーザに今後流行しそうなキーワードを予測させることを促すことができる。
また、登録された予測語の評価値が規定値以上となった場合にのみ、言語モデル33に該予測語を登録するため、言語モデル33には音声検索の頻度の高いキーワードが登録されるようになる。このため、音声検索されにくいキーワードが不要に言語モデル33に登録されなくなり、言語モデル33のデータ量が膨大になり音声認識の精度が低下してしまうことを防止できる。従って、音声検索に有用なキーワードを言語モデルに登録することで音声検索における音声認識の認識精度の低下を抑制することができる。
また、予測語の登録順序に応じてインセンティブが付与されるため、より早く新しい予測語を入力したユーザに高いインセンティブが付与される。このため、早い時期での予測語の入力を促進させることができる。
また、予測語の登録ユーザと音声クエリを入力したユーザとが同一である場合には、予測語の評価値を計上しない。このため、登録ユーザ以外の他のユーザの音声検索の操作に基づいて予測語が登録されるため、集合知を利用して有用な予測語を言語モデル33に登録してき、該言語モデル33をメンテナンスしていくことができる。また、インセンティブの付与を受けようとする悪意のあるユーザが、自ら登録した予測語で音声検索を行うといった行為により不当にインセンティブを付与されてしまうことを防止できる。
〔変形例〕
尚、上述した実施形態は、本発明を適用した一例であり、その適用可能な範囲はこれに限られない。例えば、インセンティブとして、電子通貨のポイントを一例に説明したが、このインセンティブとしては電子通貨に限られるものではなく、例えば、所定のデータ(画像や動画、ソフトウェア)をダウンロードできる権利やウェブサービスの利用権利としてもよい。
また、いわゆる検索広告により広告主により入札されて表記(キーワード)での音声検索が為された場合に、そのキーワードに対する入札額の一部をユーザにインセンティブとして付与してもよい。この場合、検索サーバ1は、広告主により入札されたキーワード(表記)と、その入札額等の入札情報と、検索結果のウェブページに挿入する広告情報とを対応付けた広告DB(図示略)を備える。そして、音声検索により検索された予測語DB35の評価値が規定値以上となった場合は、その評価値に対応する表記(キーワード)の入札額の一部(例えば、1%)を予測語の登録ユーザに付与する。
また、予測語DB35の評価値をインターネット検索を行った検索回数に基づいて計上することとしたが、検索結果のウェブページ上から検索結果のURLがクリックされた回数をその評価値に加算する等して、ユーザのページ閲覧を評価値に加味することとしてもよい。換言すると、検索結果内のURLをクリックしたということは、ユーザの音声入力に基づいてユーザが所望している検索結果が得られた可能性が高く、その音声検索の精度が高かったと言える。そのため、その音声検索によるURLの閲覧回数に基づいて言語モデル33に予測語を評価・登録することで、有用な予測語を言語モデル33に登録することができる。
また、ユーザに対する予測語を入力の要求を、テキスト検索による検索結果のウェブページから誘導することとしてもよい。具体的には、テキストクエリによるインターネット検索の際に、そのテキストクエリが言語モデル33及び予測語DB35に未登録である場合に、検索結果のウェブページに「音声検索辞書に登録」というボタンを表示させる。そして、そのボタンがクリックされたら、そのテキストクエリに対する読みをユーザに入力させる。これにより、ユーザのテキスト検索という操作の過程で、予測語を入力させることができる。
また、予測語よるテキスト検索の結果の検索結果数(URL数)が所定数(例えば、100件)以上であることを更なる条件として、該予測語を言語モデルB33に登録することとしてもよい。この場合、検索結果数を予測語に対応付けて予測語DB35に記憶することで実現できる。これにより、検索結果数が増加しているキーワード、即ち、世の中の関心の強いキーワードが言語モデル33に登録されるため、言語モデル33に有用なキーワードを登録していくことができる。
また、評価値が規定値以上である予測語を言語モデル33に登録するだけではなく、登録ユーザ数が多い予測語を優先的に言語モデル33に存続させて、登録ユーザ数が少ない予測語は所定期間経過後に言語モデル33から削除することとしてもよい。また、過去一定期間で評価値が高いい予測語を優先的に言語モデル33に存続させることとしてもよい。これにより、言語モデル33に登録する予測語が膨大になることを抑制し、音声検索に有用な予測語を言語モデルB33に登録させておくことができる。
また、言語モデル33への登録からの経過日時に応じて評価値を減算して、その評価値が規定値以下である場合に、その予測語を言語モデル33から削除することとしてもよい。これにより、音声検索で有用でない予測語が言語モデル33から削除される。
また、上述の例では、言語モデル33と予測語DB35とを別々のデータベースとして備えることとして説明したが、これらを同一のデータベースで構成することとしてもよい。即ち、読みと表記、評価値、登録日時、登録ユーザを記憶した音声認識言語モデルを構成する。そして、予測語として新たに登録された読み及び表記の組合せを音声認識用に継続採用するか否かを評価値に基づいて判断して、該言語モデルを更新していく。
検索サーバとユーザ端末とのシステム構成例を示すブロック図。 検索サーバの機能構成の一例を示すブロック図。 ユーザ情報DB、言語モデル、予測語DBのデータ構成例を示す図。 予測語登録処理の処理内容を示すフローチャート。 音声検索処理の処理内容を示すフローチャート。
符号の説明
1 検索サーバ
11 ログイン処理部
13 予測語受付部
17 予測語登録部
19 音声クエリ受付部
21 音声認識エンジン
23 予測語評価部
25 インセンティブ付与部
27 検索エンジン
31 ユーザ情報データベース
33 音声認識辞書データベース
35 予測語データベース
37 コンテンツデータベース
100 ユーザ端末

Claims (6)

  1. 言語モデルを用いてユーザ端末からの音声入力を音声認識し、その認識結果に基づいてインターネット検索を行う音声検索装置において、
    ユーザ端末から語彙の表記を含む予測語の入力を受け付ける予測語受付手段と、
    前記受け付けた予測語に、その評価値と入力したユーザの識別情報とを対応付けて予測語データベースに記憶する予測語登録手段と、
    前記評価値に基づいて前記予測語データベースに記憶されている予測語を選択し、当該予測語により前記言語モデルを更新する言語モデル更新手段と、
    前記言語モデルを用いた前記音声入力の音声認識の結果によりインターネット検索を行い、検索結果に応じて予測語の評価値を計上する予測語検索手段と、
    前記評価値と前記識別情報に基づいて、前記予測語を入力したユーザにインセンティブを付与するインセンティブ付与手段と、
    を備え、
    前記予測語登録手段は、前記受け付けた予測語に含まれるデータが表記のみの場合は、読みを含む辞書と照合し、該表記の読みを推測して前記予測語データベースに登録し、
    前記言語モデル更新手段は、評価値が規定値未満で且つ登録日時から所定期間経過した予測語に対して、評価値を所定数減算し、規定値未満となった場合に前記予測語データベースおよび前記言語モデルから削除する
    ことを特徴とする音声検索装置。
  2. 前記言語モデル更新手段は、前回の言語モデルの更新以降に前記予測語データベース中で評価値が更新された予測語の数が一定数を超えた場合に言語モデルを更新する
    ことを特徴とする請求項1に記載の音声検索装置。
  3. 前記予測語登録手段は、
    前記受け付けた予測語が前記予測語データベースに既に記憶されている場合には、前記ユーザの識別情報をその予測語の受付順序で当該予測語に対応付けて複数記憶し、
    前記インセンティブ付与手段は、
    前記追加記憶した予測語を入力したユーザに前記受付順序に応じたインセンティブを付与することを特徴とする請求項1又は2に記載の音声検索装置。
  4. 前記登録判定手段は、
    前記予測語データベースに基づいて、前記音声入力を行ったユーザと前記予測語を入力したユーザとが同一であるか否かの判定を更に行い、
    前記予測語検索手段は、
    前記音声入力を行ったユーザと前記予測語を入力したユーザとが同一であると判定された場合には、前記予測語データベースにおいて前記音声認識された結果に含まれる予測語の評価値の計上を行わないことを特徴とする請求項1〜3の何れか一項に記載の音声検索装置。
  5. コンピュータが言語モデルを用いてユーザ端末からの音声入力を音声認識し、その認識結果に基づいてインターネット検索を行う音声検索方法において、
    ユーザ端末から語彙の表記を含む予測語の入力を受け付ける予測語受付ステップと、
    前記受け付けた予測語に、その評価値と入力したユーザの識別情報とを対応付けて予測語データベースに記憶する予測語登録ステップと、
    前記評価値に基づいて前記予測語データベースに記憶されている予測語を選択し、当該予測語により前記言語モデルを更新する言語モデル更新ステップと、
    前記言語モデルを用いた前記音声入力の音声認識の結果によりインターネット検索を行い、検索結果に応じて予測語の評価値を計上する予測語検索ステップと、
    前記評価値と前記識別情報に基づいて、前記予測語を入力したユーザにインセンティブを付与するインセンティブ付与ステップと、
    を含み、
    前記予測語登録ステップは、前記受け付けた予測語に含まれるデータが表記のみの場合は、読みを含む辞書と照合し、該表記の読みを推測して前記予測語データベースに登録し、
    前記言語モデル更新ステップは、評価値が規定値未満で且つ登録日時から所定期間経過した予測語に対して、評価値を所定数減算し、規定値未満となった場合に前記予測語データベースおよび前記言語モデルから削除する
    ことを特徴とする音声検索方法。
  6. 言語モデルを用いてユーザ端末からの音声入力を音声認識し、その認識結果に基づいてインターネット検索を行う機能をコンピュータに実現させるための音声検索プログラムにおいて、
    ユーザ端末から語彙の表記を含む予測語の入力を受け付ける予測語受付機能と、
    前記受け付けた予測語に、その評価値と入力したユーザの識別情報とを対応付けて予測語データベースに記憶する予測語登録機能と、
    前記評価値に基づいて前記予測語データベースに記憶されている予測語を選択し、当該予測語により前記言語モデルを更新する言語モデル更新機能と、
    前記言語モデルを用いた前記音声入力の音声認識の結果によりインターネット検索を行い、検索結果に応じて予測語の評価値を計上する予測語検索機能と、
    前記評価値と前記識別情報に基づいて、当該予測語を入力したユーザにインセンティブを付与するインセンティブ付与機能と、
    を実現させ、
    前記予測語登録機能は、前記受け付けた予測語に含まれるデータが表記のみの場合は、読みを含む辞書と照合し、該表記の読みを推測して前記予測語データベースに登録し、
    前記言語モデル更新機能は、評価値が規定値未満で且つ登録日時から所定期間経過した予測語に対して、評価値を所定数減算し、規定値未満となった場合に前記予測語データベースおよび前記言語モデルから削除する
    ための音声検索プログラム。
JP2008336053A 2008-12-16 2008-12-16 音声検索装置、音声検索方法及び音声検索プログラム Active JP5185807B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008336053A JP5185807B2 (ja) 2008-12-16 2008-12-16 音声検索装置、音声検索方法及び音声検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008336053A JP5185807B2 (ja) 2008-12-16 2008-12-16 音声検索装置、音声検索方法及び音声検索プログラム

Publications (2)

Publication Number Publication Date
JP2010146532A JP2010146532A (ja) 2010-07-01
JP5185807B2 true JP5185807B2 (ja) 2013-04-17

Family

ID=42566861

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008336053A Active JP5185807B2 (ja) 2008-12-16 2008-12-16 音声検索装置、音声検索方法及び音声検索プログラム

Country Status (1)

Country Link
JP (1) JP5185807B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012155272A (ja) * 2011-01-28 2012-08-16 Nec Corp 音声認識辞書拡張装置、システム、方法およびプログラム
US8589164B1 (en) * 2012-10-18 2013-11-19 Google Inc. Methods and systems for speech recognition processing using search query information
JP6867661B1 (ja) * 2020-08-13 2021-05-12 株式会社エクサウィザーズ 情報処理方法、コンピュータプログラム及び情報処理装置
CN117037789B (zh) * 2023-10-09 2023-12-08 深圳市加推科技有限公司 一种客服语音识别方法、装置、计算机设备及存储介质
CN117111826B (zh) * 2023-10-23 2024-01-02 深圳市华南英才科技有限公司 一种基于笔迹特征的电容笔屏交互控制方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3472032B2 (ja) * 1995-04-24 2003-12-02 株式会社東芝 情報フィルタ装置及び情報フィルタ方法
JP4258965B2 (ja) * 2000-09-27 2009-04-30 富士通株式会社 キーワード検索と広告を対応させたポイント装置
JP2002229795A (ja) * 2001-01-31 2002-08-16 Ntt Comware Corp コミュニケーションサーバ、ならびに同サーバによるエージェント知識情報を用いたコミュニケーション方法
JP3683504B2 (ja) * 2001-02-14 2005-08-17 日本電信電話株式会社 音声利用型情報検索装置および音声利用型情報検索プログラムと該プログラムを記録した記録媒体
JP2005084829A (ja) * 2003-09-05 2005-03-31 Sharp Corp 情報検索方法、情報検索装置、情報検索プログラム、及びプログラム記録媒体
JP4851081B2 (ja) * 2004-12-13 2012-01-11 株式会社リコー 情報検索装置
JP4738847B2 (ja) * 2005-03-07 2011-08-03 キヤノン株式会社 データ検索装置および方法
JP4987682B2 (ja) * 2007-04-16 2012-07-25 ソニー株式会社 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
JP5008444B2 (ja) * 2007-04-16 2012-08-22 株式会社エヌ・ティ・ティ・ドコモ メタデータ構築システム及びメタデータ構築方法

Also Published As

Publication number Publication date
JP2010146532A (ja) 2010-07-01

Similar Documents

Publication Publication Date Title
US8666963B2 (en) Method and apparatus for processing spoken search queries
JP5851507B2 (ja) インターネット検索に関する方法及び装置
US9418177B1 (en) Disambiguation of a spoken query term
US8990182B2 (en) Methods and apparatus for searching the Internet
TWI506982B (zh) 音訊聊天系統、資訊處理裝置、語音辨識方法、關鍵字偵測方法、及記錄媒體
US20180157960A1 (en) Scalable curation system
US20150288818A1 (en) Method and apparatus for predicting intent in ivr using natural language queries
US20130232159A1 (en) System and method for identifying customers in social media
JPWO2005122144A1 (ja) 音声認識装置、音声認識方法、及びプログラム
US20120060113A1 (en) Methods and apparatus for displaying content
US20120059658A1 (en) Methods and apparatus for performing an internet search
CN101309327A (zh) 语音聊天系统、信息处理装置、话语识别和关键字检测
JP5185807B2 (ja) 音声検索装置、音声検索方法及び音声検索プログラム
US20120059814A1 (en) Methods and apparatus for selecting a search engine to which to provide a search query
US20200117742A1 (en) Dynamically suppressing query answers in search
CN110164416B (zh) 一种语音识别方法及其装置、设备和存储介质
WO2021169365A1 (zh) 声纹识别的方法和装置
CN111611358A (zh) 信息交互方法、装置、电子设备及存储介质
JP5646675B2 (ja) 情報処理装置及び方法
JP2005275601A (ja) 音声による情報検索システム
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
CN110929014B (zh) 信息处理方法、装置、电子设备及存储介质
JP4000828B2 (ja) 情報システム、電子機器、プログラム
CN107562788B (zh) 交互方法、装置及计算机可读存储介质
JP2005215726A (ja) 話者に対する情報提示システム及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120501

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121101

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20121108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130118

R150 Certificate of patent or registration of utility model

Ref document number: 5185807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160125

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350