JP2010048890A - クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム - Google Patents

クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム Download PDF

Info

Publication number
JP2010048890A
JP2010048890A JP2008210849A JP2008210849A JP2010048890A JP 2010048890 A JP2010048890 A JP 2010048890A JP 2008210849 A JP2008210849 A JP 2008210849A JP 2008210849 A JP2008210849 A JP 2008210849A JP 2010048890 A JP2010048890 A JP 2010048890A
Authority
JP
Japan
Prior art keywords
recognition
recognition result
result
client device
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008210849A
Other languages
English (en)
Inventor
Shi Cho
志鵬 張
Yusuke Nakajima
悠輔 中島
Nobuhiko Naka
信彦 仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2008210849A priority Critical patent/JP2010048890A/ja
Publication of JP2010048890A publication Critical patent/JP2010048890A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】モデル更新の基礎となるデータに対する処理を適切に行う。
【解決手段】 クライアント装置110では、サーバ装置120より音声認識の結果を文字列として受信し、この文字列に対してユーザが操作を行い、この操作を検出し、当該検出した操作の内容をサーバ装置120に通知する。サーバ装置120では、音声認識を行うためのモデルを格納し、クライアント装置110より音声を受信し、この音声に対する音声認識を行い、音声認識の結果を保存するとともにクライアント装置110に送信する。また、サーバ装置120では、クライアント装置110より認識結果に対するフィードバックデータを受信し、保存した音声認識結果とフィードバックデータとを照合し、当該照合の結果に基づき、音声認識結果中の正解部分を抽出する。最後に、当該抽出した正解部分のデータを利用し、モデルを更新する。
【選択図】図1

Description

本発明は、クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラムに関するものである。
従来、例えば特許文献1に記載されているように、携帯端末が入力した音声データをサーバに出力すると、サーバがその音声データに対する音声認識を行い、最後に携帯端末が当該音声認識の結果を取得するという技術が知られている。
また、例えば特許文献2に記載されているように、音声データとその認識結果を利用し、音声認識のためにサーバに備えられている音響モデルや言語モデルを更新するという技術が知られている。
特開2003−295893号公報 特開2008−15209号公報
ところで、音響モデルや言語モデルの更新の際に用いられるデータおよびそれに対する処理の仕方により、当該更新の精度は大きく異なるため、昨今、モデル更新の基礎となるデータに対する重要性が高まりつつある。
そこで、本発明は上記に鑑みてなされたもので、モデル更新の基礎となるデータに対する処理を適切に行うことが可能なクライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラムを提供することを目的とする。
上記課題を解決するために、本発明のクライアント装置は、音声認識を行うサーバ装置より前記音声認識の結果を文字列として受信する認識結果受信手段と、前記文字列に対してユーザが操作を行うための操作手段と、前記操作を検出する操作検出手段と、当該検出した操作の内容を前記サーバ装置に通知する通知手段と、を備えることを特徴とする。
また、本発明の認識結果フィードバック方法は、認識結果受信手段が、音声認識を行うサーバ装置より前記音声認識の結果を文字列として受信する認識結果受信ステップと、操作手段を用いて、前記文字列に対してユーザが操作を行う操作ステップと、操作検出手段が、前記操作を検出する操作検出ステップと、通知手段が、当該検出した操作の内容を前記サーバ装置に通知する通知ステップと、を備えることを特徴とする。
また、本発明の認識結果フィードバックプログラムは、認識結果受信手段が、音声認識を行うサーバ装置より前記音声認識の結果を文字列として受信する認識結果受信ステップと、操作手段を用いて、前記文字列に対してユーザが操作を行う操作ステップと、操作検出手段が、前記操作を検出する操作検出ステップと、通知手段が、当該検出した操作の内容を前記サーバ装置に通知する通知ステップと、をコンピュータに実行させることを特徴とする。
また、本発明のサーバ装置は、音声認識を行うためのモデルを格納する格納手段と、クライアント装置より音声を受信する音声受信手段と、前記モデルを用いて前記音声に対する前記音声認識を行う音声認識手段と、前記音声認識の結果を保存する認識結果保存手段と、前記結果を前記クライアント装置に送信する認識結果送信手段と、前記クライアント装置より前記認識結果に対するフィードバックデータを受信するフィードバック受信手段と、前記認識結果保存手段に保存された音声認識結果と、前記フィードバック受信手段が受信したフィードバックデータを照合し、当該照合の結果に基づき、前記認識結果保存手段に保存された音声認識結果中の正解部分を抽出する抽出手段と、前記正解部分のデータを利用し、前記モデルを更新する更新手段と、を備えることを特徴とする。
また、本発明の音声認識のモデル更新方法は、格納手段に、音声認識を行うためのモデルが格納されており、音声受信手段が、クライアント装置より音声を受信する音声受信ステップと、音声認識手段が、前記モデルを用いて前記音声に対する前記音声認識を行う音声認識ステップと、認識結果保存手段が、前記音声認識の結果を保存する認識結果保存ステップと、認識結果送信手段が、前記結果を前記クライアント装置に送信する認識結果送信ステップと、フィードバック受信手段が、前記クライアント装置より前記認識結果に対するフィードバックデータを受信するフィードバック受信ステップと、抽出手段が、前記認識結果保存手段に保存された音声認識結果と、前記フィードバック受信手段が受信したフィードバックデータを照合し、当該照合の結果に基づき、前記認識結果保存手段に保存された音声認識結果中の正解部分を抽出する抽出ステップと、更新手段が、前記正解部分のデータを利用し、前記モデルを更新する更新ステップと、を備えることを特徴とする。
また、本発明の音声認識のモデル更新プログラムは、格納手段に、音声認識を行うためのモデルが格納されており、音声受信手段が、クライアント装置より音声を受信する音声受信ステップと、音声認識手段が、前記モデルを用いて前記音声に対する前記音声認識を行う音声認識ステップと、認識結果保存手段が、前記音声認識の結果を保存する認識結果保存ステップと、認識結果送信手段が、前記結果を前記クライアント装置に送信する認識結果送信ステップと、フィードバック受信手段が、前記クライアント装置より前記認識結果に対するフィードバックデータを受信するフィードバック受信ステップと、抽出手段が、前記認識結果保存手段に保存された音声認識結果と、前記フィードバック受信手段が受信したフィードバックデータを照合し、当該照合の結果に基づき、前記認識結果保存手段に保存された音声認識結果中の正解部分を抽出する抽出ステップと、更新手段が、前記正解部分のデータを利用し、前記モデルを更新する更新ステップと、をコンピュータに実行させることを特徴とする。
また、本発明の音声認識システムは、上記のクライアント装置およびサーバ装置を備えることを特徴とする。
また、本発明の音声認識方法は、上記の認識結果フィードバック方法および音声認識のモデル更新方法を備えることを特徴とする。
また、本発明の音声認識プログラムは、上記の認識結果フィードバックプログラムおよび音声認識のモデル更新プログラムを備えることを特徴とする。
このような本発明のクライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラムによれば、音声認識を行うサーバ装置からの音声認識結果に対してユーザが操作を行うことができる。そのため、ユーザは当該音声認識結果に対して誤認識された部分を指摘したり、または正しく直すことが可能となる。これらのユーザの操作をサーバ装置にフィードバックする。そして、サーバ装置では、ユーザからのフィードバックを参照して、誤認識された部分を除いてからのデータに基づいてモデル更新を行ったり、または正しく直した部分を更に追加したデータに基づいてモデル更新を行う。このため、モデル更新の精度を高めることができる。このように高い精度で更新された音響モデルや言語モデルを用いれば、より高い性能で音声認識を行うことができる。誤り区間の音声に対して再度認識を行う場合にも、次回入力された音声データに対して初めて認識を行う場合でも、上記高い精度で更新した音響モデルや言語モデルを利用することができる。
また、本発明のクライアント装置において、音声を入力する音声入力手段と、前記サーバ装置に前記音声を送信する音声送信手段と、を更に備えることが好ましい。
また、本発明のクライアント装置において、前記操作検出手段は、前記文字列に対した前記ユーザの操作箇所を検出し、前記通知手段は、当該検出した前記操作箇所を前記サーバ装置に通知する、ことが好ましい。
また、本発明のクライアント装置において、前記操作検出手段は、前記ユーザの操作がなかった場合に、その旨を検出し、前記通知手段は、前記ユーザの操作がなかった旨を前記サーバ装置に通知する、ことが好ましい。
また、本発明のクライアント装置において、前記操作手段は、前記文字列に対して前記ユーザが訂正を行うためのものであり、前記訂正後の文字列と認識結果受信手段が受信した当初の文字列とを比較する比較手段を更に備え、前記操作検出手段は、前記比較手段の前記比較の結果に基づき、前記操作箇所を検出する、ことが好ましい。
また、本発明のクライアント装置において、前記操作手段は、前記文字列に対して前記ユーザが訂正を行うためのものであり、前記訂正後の文字列の内容を判断する判断手段を更に備え、前記操作検出手段は、前記判断手段の前記判断の結果に基づき、前記操作箇所を検出する、ことが好ましい。
また、本発明のクライアント装置において、前記ユーザが前記操作のために押すキーの種類を判定し、且つ前記キーを押した回数をカウントするキー関連手段を更に備え、前記操作検出手段は、前記キー関連手段の前記判定および前記カウントの結果に基づき、前記操作箇所の開始箇所を検出する、ことが好ましい。
また、本発明のクライアント装置において、前記キー関連手段は、前記ユーザが前記操作のために押したキーが削除キーであることを検出し、前記操作検出手段は、前記キー関連手段の前記削除キーの検出の結果に基づき、前記操作箇所の終了箇所を検出する、ことが好ましい。
また、本発明のクライアント装置において、前記通知手段は、前記ユーザの前記操作の内容に対する読み、品詞、文字数の少なくとも一つ以上を通知する、ことが好ましい。
また、本発明のクライアント装置において、前記操作検出手段は、前記操作箇所の前記開始箇所に基づき、前記操作箇所の終了箇所を検出する、ことが好ましい。
また、本発明のサーバ装置において、前記フィードバックデータは、前記認識結果に対する認識誤り区間の時間情報である、ことが好ましい。
また、本発明のサーバ装置において、前記抽出手段は、前記認識誤り区間の時間情報と、前記認識結果保存手段に保存された音声認識結果における各文字の時間情報とを照合し、当該照合の結果に基づき、前記正解部分を抽出する、ことが好ましい。
また、本発明のサーバ装置において、前記フィードバックデータは、前記認識結果に対する認識誤り区間の時間情報、および訂正後の文字列である、ことが好ましい。
また、本発明のサーバ装置において、前記抽出手段は、前記認識誤り区間の時間情報と、前記認識結果保存手段に保存された音声認識結果における各文字の時間情報とを照合し、当該照合の結果に基づき、前記正解部分を抽出し、前記更新手段は、前記正解部分のデータ、および前記訂正後の文字列を利用し、前記モデルを更新する、ことが好ましい。
また、本発明のサーバ装置において、前記訂正後の文字列と、前記ユーザの元の発生内容との間の一致度を計算する一致度計算手段を更に備え、前記一致度計算手段は、前記一致度が所定の閾値以下の場合に、前記更新手段に前記訂正後の文字列を前記モデルの更新に利用させない、ことが好ましい。
また、本発明のサーバ装置において、前記正解部分および前記訂正後の文字列について、各文字に対する時間情報を抽出する時間情報抽出手段を更に備え、前記更新手段は、前記時間情報を利用し、前記モデルを更新する、ことが好ましい。
また、本発明のサーバ装置において、前記格納手段には、前記音声認識を行うための単語辞書が更に格納されており、前記訂正後の文字列のうち、前記単語辞書に含まれていないものを新単語として抽出し、前記新単語を前記単語辞書に追加する辞書更新手段を更に備える、ことが好ましい。
また、本発明のサーバ装置において、前記ユーザに対する情報が格納されたユーザデータベースと、前記正解部分および前記訂正後の文字列に含まれた単語を用いて前記ユーザデータベースを検索するユーザデータベース検索手段と、を更に備えることが好ましい。
また、本発明のサーバ装置において、前記正解部分に含まれた単語、および前記訂正後の文字列に含まれた単語にそれぞれ個別の重要度を付与し、当該重要度付きの単語を用いて前記ユーザデータベースを更新するユーザデータベース更新手段を更に備える、ことが好ましい。
また、本発明のサーバ装置において、前記ユーザデータベースには、前記ユーザの利用時間、活動範囲、年齢、性別のうち少なくても一つ以上を表す情報が当該ユーザと関連付けられて格納されている、ことが好ましい。
本発明によれば、モデル更新の基礎となるデータに対する処理を適切に行うことが可能なクライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラムを提供することができる。
以下、添付図面を参照して本発明にかかるクライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラムの好適な実施形態を詳細に説明する。なお、図面の説明において同一の要素には同一の符号を付し、重複する説明を省略する。
<第1実施形態>
(音声認識システム1の全体構成)
まず、本発明の実施形態に係る音声認識システム1の構成について、図1を参照しながら説明する。図1は、本実施形態のクライアント装置110、およびクライアント装置110から送信された音声を認識し、その結果をクライアント装置110に返信するサーバ装置120を備える、音声認識システム1の構成概要図である。
クライアント装置110は、例えば携帯電話などの携帯端末であって、ユーザが発声した音声を入力し、その音声特徴量データ130を無線通信ネットワーク100を用いてサーバ装置120に送信し、サーバ装置120からの返信である音声認識結果140を無線通信ネットワーク100を用いて受信することができる。クライアント装置110は、ユーザの操作情報150(操作の内容)を無線通信ネットワーク100を用いてサーバ装置120に送信することができる。なお、ユーザ操作情報150をクライアント装置110内部の所定の処理部に通知してもよい。
サーバ装置120は、音声認識を行う手段を備え、入力された音声を、音響モデル、言語モデルなどのデータベースを用いて音声認識を行い、その認識結果を無線通信ネットワーク100を用いてクライアント装置110に返信する。
(クライアント装置110の構成)
クライアント装置110について詳細に説明する。図2は、クライアント装置110のハードウェア構成図である。図2に示すように、クライアント装置110は、物理的には、CPU11、主記憶装置であるROM12及びRAM13、操作ボタンなどの入力デバイス14、LCDや有機ELディスプレイなどの出力デバイス15、サーバ装置120との間でデータの送受信を行う通信モジュール16、メモリディバイス等の補助記憶装置17を備えて構成される。後述するクライアント装置110の各機能は、CPU11、ROM12、RAM13等のハードウェア上に所定のソフトウェアを読み込ませることにより、CPU11の制御の元で入力デバイス14、出力デバイス15、通信モジュール16を動作させると共に、主記憶装置12,13や補助記憶装置17におけるデータの読み出し及び書き込みを行うことで実現される。
図3は、クライアント装置110の機能を示すブロック図である。図3に示すように、クライアント装置110は、機能的には、音声処理部210(音声入力手段)、音声データ送信部220(音声送信手段)、音声データ保存部230、認識結果受信部240(認識結果受信手段)、認識結果保存部250、ユーザ操作部260(操作手段)、比較部270(操作検出手段、比較手段、判断手段)、訂正内容通知部280(通知手段)を含んで構成されている。以下では、図4を更に参照しながら、クライアント装置110の機能および動作を説明する。図4は、クライアント装置110の機能および動作を説明するためのフローチャートである。また、以下の説明においては、説明の便宜上、ユーザが「横浜でスパゲティを食べたい」と音声を発声したことを前提とする。
音声処理部210は、マイク(図示せず)を通じてユーザの音声を入力し、音響特徴量データを算出する(ステップ610)。例えば、音声処理部210は、MFCC(Mel Frequency Cepstrum Coefficient)のような周波数で表される音響特徴を示す特徴量データを算出する。音声データ保存部230に音声処理部210において算出された特徴量データを一時的に記憶する(ステップ620)。音声データ送信部220においては、算出された特徴量データをサーバ装置120に送信する(ステップ630)。音声データ送信部220は、HTTP(Hyper Text TransferProtocol)、MRCP(Media Resource Control Protocol)、SIP(Session Initiation Protocol)などを用いて送信処理を行う。また、サーバ装置120では、これらプロトコルを用いて受信処理を行い、特徴量データを用いて音声認識処理を行い、また返信処理を行う。
認識結果受信部240は、サーバ装置120から返信された音声認識結果を受信する(ステップ640)。この音声認識結果には、テキストデータ、時刻情報などが含まれており、時刻情報はテキストデータの一認識単位ごとの経過時刻を示す情報である。認識結果保存部250に認識結果を保存する(650)。例えば、文字単位の例の認識結果として、図5に示される情報が受信される。右の列に認識結果(文字単位)を示し、左の二列に各文字の開始時刻と終了時刻を示す。開始時刻および終了時刻の単位はmsecである。図5に示す結果の例には認識誤りが一箇所ある。つまり、発声“スパゲティを”のところが”すっぱいもの“に誤認識されている。
図3,4に戻り、ユーザ操作部260は認識結果に対してユーザが操作を行うためのものである。ユーザ操作部260では認識結果保存部250にある認識結果の文字列に対し訂正処理を行う(660)。例えば図5に示す認識結果に対し、ユーザが誤りの”すっぱいもの“を削除し、正しい内容“スパゲティを”を例えばキーボードを用いてキーで入力する。図6に訂正後の文字列を示す。
図3,4に戻り、比較部270は認識結果(認識結果受信部240が受信した当初の文字列)と操作結果(訂正後の文字列)の比較を行うことにより、つまり認識結果の内容と操作結果の内容とを照合して判断することにより、ユーザの操作を検出するものである。例で説明すると、図5の認識結果の文字列と図6に訂正後の文字列を比較する(670)。その中の違いの部分を見つける。この例で文字列を比較することにより、“横浜で”と“食べたい”の部分は認識の正解部分であることを判明する。それ以外のところは文字列が違うため認識誤りで、ユーザが訂正を行った箇所(操作箇所)であることが分かる。比較部270は、この操作箇所を検出する。
図7に比較部270が行った比較の結果を示す。図7には、図5の元の文字列の4番目(図7での文字番号:4)から9番目(図7での文字番号:9)までの間に対しユーザが訂正したことが示されている。また、図7には、ユーザの訂正箇所と対応する時刻情報(300msから800ms)も更に示されている。
なお、時刻情報は図5に示すようにサーバ装置120からの情報を使ってもよいが、サーバ装置120から時刻情報を受信しない場合は、音声データ保存部230に保存されている音声データを利用し、クライアント装置110側で計算することもできる。より具体的には、入力されたテキストデータと、音声データ保存部230に記憶されている特徴量データとを比較することによって、テキストデータの文字を周波数データに変換した場合に、特徴量データのどの部分まで一致するかを判断することによって、文字における経過時間を算出することができる。
訂正内容通知部280はユーザの訂正内容(操作箇所、訂正箇所)を他の処理に通知する処理を行う(680)。他の処理は同じ装置内にあってもよいし、他の装置にあってもよい。他の装置にある場合は無線通信ネットワーク100経由の通知機能を利用し、訂正内容を通知する。通知内容は訂正後の文字列と時刻情報の両方でもいいし、または時刻情報だけでもよい。また時刻情報に関して、開始時刻、終了時刻のどっちか一つだけを通知してもいい。また、上記の例では誤り箇所が一つだけある場合を説明したが、複数の誤り箇所がある場合は複数個所を検出し、複数個所の情報を通知する。
また、通知する内容は時刻情報以外に、誤り箇所と対応する文字の番号そのものを通知してもよい。図7に示した上記の例であれば、文字番号4番(誤りの開始)と9番(誤りの終了)を通知する。また、誤り箇所の始点と間違いの数を通知してもよい。上記の例であれば、文字番号4番(誤りの開始)と5番(間違いの数=誤りの終了箇所-誤りの開始箇所)を通知する。
また、上記の例では訂正内容をキーで入力すると説明したが、他の訂正方法(例えば、ペン入力、認識結果のN−BEST選択、再認識による訂正などの方法など)でもよい。
また、認識結果のN−BEST選択の場合はユーザが選択した候補の番号を通知してもよい。例えば、認識結果の上位N=4個の候補をサーバ装置120から次のように受信したとする。
1.横浜ですっぱいもの食べたい
2.横浜でスパゲティを食べたい
3.横須賀でスパゲティを食べたい
4.横須賀ですっぱいもの食べたい
この中の2番目が正解であるため、ユーザが2番目を選択すると、訂正内容通知部280は番号「2」を通知する。
また、音声認識に誤りない、或いは訂正必要ない場合は、訂正内容通知部280がこの趣旨を反映する情報を通知してもよい。この場合には、比較部270が、認識結果と操作結果との比較において、相違点がないこと、つまりユーザの操作がなかったことを検出する。
更に、サーバ装置120から文字列と時刻情報以外に他の情報例えば複数の認識結果候補のN−best文字列や、各単語の品詞情報、読み、振り仮名、文字数、単語数などを受信し、それらの情報を基づき、訂正を行い、また訂正後のこれらの情報をサーバ装置120に通知してもよい。先の例で説明すると、訂正前の単語列“すっぱいもの”は二つの単語列“すっぱい”(形容詞)と、“もの”(名詞)からなるのに対し、訂正後の文字列は二つの単語列“スパゲティ”(名詞)と、“を”(助詞)からなっており、これら品詞を表す情報を訂正内容通知部280がサーバ装置120に通知してもよい。これら情報はユーザが自分で設定してもよいが、予め入力されている参照DBから引用してもよい。この参照DBの例を図8に示す。各行に一単語の読み、品詞情報、子分類などが保持されている。この参照DBからスパゲティに関係する情報(名詞、料理名など)を引用し、通知してもよい。文字入力の参照DBはFEPのDBでもよいし、電話帳などのDBでもよい。
また、訂正内容通知部280が、誤り文字列だけでなく、誤り文字列の前後の文字列を通知してもよい。
(サーバ装置120の構成)
続いて、サーバ装置120について詳細に説明する。図2はサーバ装置120のハードウェア構成図である。図2に示すように、サーバ装置120は、物理的には、CPU21、ROM22及びRAM23等の主記憶装置、キーボード及びマウス等の入力デバイス24、ディスプレイ等の出力デバイス25、クライアント装置110との間でデータの送受信を行うためのネットワークカード等の通信モジュール26、ハードディスク等の補助記憶装置27などを含む通常のコンピュータシステムとして構成される。後述するサーバ装置120の各機能は、CPU21、ROM22、RAM23等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU21の制御の元で入力デバイス24、出力デバイス25、通信モジュール26を動作させると共に、主記憶装置22,23や補助記憶装置27におけるデータの読み出し及び書き込みを行うことで実現される。
図9は、サーバ装置120の機能を示すブロック図である。図9に示すように、サーバ装置120は、機能的には、認識部1010(音声認識手段)、音響モデル保持部1020(格納手段)、言語モデル保持部1030(格納手段)、結果保存部1040(認識結果保存手段)、正解区間抽出部1050(抽出手段)、音響モデル修正部1060(更新手段)、音声保存部1070、フィードバック受信部1080(フィードバック受信手段)、結果送信部1090(認識結果送信手段)、および音声受信部1100(音声受信手段)を含んで構成されている。以下では、図10を更に参照しながら、サーバ装置120の機能および動作を説明する。図10は、サーバ装置120の機能および動作を説明するためのフローチャートである。
サーバ装置120は、音声受信部1100がクライアント装置110からの音声データを受信すると(ステップ1110)、当該音声データは音声保存部1070に保存されるとともに、認識部1010に出力される(ステップ1120)。
次に、音声認識部1010にて、音響モデル保持部1020に格納されている音響モデル、および言語モデル保持部1030に格納されている言語モデルを利用し、音声受信部1100より入力された音声に対し音声認識を行う(ステップ1130)。その認識結果(文字列および時間情報)を結果保存部1040に保存するとともに(ステップ1190)、クライアント装置110に返信する(ステップ1140)。例えば、“横浜でスパゲティを食べたい”という内容の発声に対し、認識結果の例を図5に示す。図5では、認識結果が文字列と時間情報からなっている。この認識結果の文字と時間情報を結果保存部1040に保存し(ステップ1190)、クライアント装置110に送信する(ステップ1140)。クライアント装置110に送信する内容は文字列だけでもよく、文字列と各時間の時間情報を含めてもよい。
次に、ステップ1140にてクライアント装置110側に送信した認識結果に対するユーザの操作内容のフィードバックデータを受信する(ステップ1150)。このフィードバックデータの例を図7に示す。
次に、ステップ1150にて受信したフィードバックデータと、ステップ1190にて結果保存部1040に保存した認識結果を表す情報とを照合し、当該照合の結果に基づき、正解区間抽出部1050が当該認識結果から正解部分の抽出処理を行う(ステップ1160)。抽出処理は、フィードバックデータに含まれている誤り区間の開始時刻と終了時刻(あるいは単語番号)を認識結果データの時刻情報と照合し、当該照合の結果に基づき、認識結果の中から誤り部分を除去する。その結果、認識の正解部分の情報だけが残る。例えば上記図5、図7の場合においては、開始時刻300msから終了時刻800msまでを除去すると、正解部分として「横浜で」と「食べたい」だけが残る。
次に、モデル修正部1060において、モデルの修正・更新処理を行う(ステップ1170、ステップS1180)。この処理は図11を参照に説明する。図11において、正解区間音声データ抽出部1210および音素単位の音声データ抽出部1220が図9に示した正解区間抽出部1050を構成し、音素単位モデル修正部1230が図9に示した音響モデル修正部1060を構成する。正解区間音声データ抽出部1210において全発話の音声データから正解部分の音声データを抽出する。
上記の例において、正解部分は0msから300msまでの区間と800msから1200msまでの区間であった。この場合に、音素単位の音声データ抽出部1220において正解単語の音素レベルの音声データを計算すると、その結果は以下となる。
”横浜で”の音素列は、”y o k o h a m a d e”
音素レベルの時間は0 30 5080 100130 16080 200250 300
“食べたい”の音素列は”t a b e t a i”
音素レベルの時間は800 850 910980 10501110 11601200
音素単位の音声データ抽出部1220は、各音素の対応する時間に基づき、音素対応の音声データを抽出する。上記の例では、音素yに対応する部分は1箇所あり、0msから30msの部分である。また、音素oに対応する部分は2箇所あり、30msから50msまで、80msから100msの部分である。
次に、音素単位モデル修正部1230が、正解部分の各音素に対応する音声データを用いて、音響モデル保持部1020に保持されている音響モデルの修正を行う。修正方法は従来からいろいろあるが、本実施形態では非特許文献1(「確率モデルによる音声認識のための話者適応化技術」、電子情報通信学会論文誌 D-II vol.J87-D-II, no.2, pp.371-386, 2004-2)に記載された方法を用いることとする。非特許文献1に記載されたモデルパラメータ修正方法の一例を下記の式(1)に示す。下記の式(1)では、Xが音素の音声の平均値を示し、 m0が修正前のモデルパラメータを示し、 mが修正後のモデルパラメータを示す。
m= m0*weight+(1.0- weight)*X…(1)
上記の式(1)により修正したパラメータを用いて、音響モデル保持部1020にある音響モデルの更新を行う(ステップ1180)。
このように更新した音響モデルは誤りの信号を除去してからのデータに基づいて更新を行ったため、精度が高い。次の音声認識にこの更新した音響モデルを用いれば、より高い性能で音声認識を行うことができる。誤り区間の音声に対して再度認識を行う場合にも、次回入力された音声データに対して認識を行う場合でも、この更新した音響モデルを利用できる。
第1実施形態では、サーバ装置120からクライアント装置110に送信する認識結果の内容が文字列と時間情報であったが、クライアント装置110に文字列だけを送信してもよい。この場合は各文字に対応する時間情報をクライアント装置110側で計算することが好ましい。
また、以上では、誤り区間について始点と終点の両方を指定すると説明したが、始点だけを指定するようにしてもよい。この場合は、例えば始点に基づいて終点を自動的に検出するような手段を更に設けることが好ましい。終点の検出方法はいろいろあるが、例えば
a,始点以降のN番目の単語を終点にする方法.この場合はNを通知してもよい。この実施例では誤り単語始点(“すっぱい”)の以降N=1の場合は“もの”である。
b.始点以降の特殊音声単位(ポーズなど)
c,認識結果の文字列の信頼度がある場合信頼度が高い単語を終点にする
始点だけを通知する場合は、その趣旨と終点の検出方法を通知してもよい。
さらに、終点だけを指定し、始点を自動的に指定することもよい。
また、以上では、音響モデルについて、音素を基本単位とするモデルを例に説明したが、それ以外の単位、例えば単語、音節、仮名などを単位とするモデルである場合にも、第1実施形態を容易に適用することができる。
<第1実施形態の変形例1>
以下では、第1実施形態の変形例1について説明する。この変形例1の基本構成と処理は第1実施形態と同じであるが、ユーザ操作部260および比較部270(以上、操作手段、キー関連手段、操作検出手段)の構成と処理が第1実施形態と異なる。以下では、図12、図13を参照しながら第1実施形態との違いの部分だけを説明する。図12は変形例1におけるユーザ操作部260および比較部270の構成図であり、図13は変形例1におけるユーザ操作部260および比較部270の機能および動作を説明するためのフローチャートである。
図12に示すように、変形例1におけるユーザ操作部260および比較部270は、機能的な構成要素として、種類判定部710、種類回数記憶部720、誤り始点計算部730、誤り時間変換部740、誤り終点計算部750、削除文字数記憶部760、および訂正内容記憶部770を含んで構成されている。
変形例1では、ユーザの操作に基づき、訂正内容と対応時刻を算出する。まず、種類判定部710がユーザにより押されたキーの種類を判定する(ステップ810)。すなわち、カーソルを動かす操作であるか、それとも訂正操作かであるかを判定する。カーソルを動かす操作は、カーソルを上下左右、或いは次のページ、前のページに移動するなどの操作を指す。また、訂正操作は、文字に対する削除、入力などの操作を指す。
ステップ810の判定の結果、カーソル移動の場合は(ステップ810:移動キー)、ユーザが押したキーの種類と押した回数を種類回数記憶部720に記録する。
次に、誤り始点計算部730が、種類回数記憶部720に記録された内容に基づいて、訂正箇所の開始位置Pを計算する(ステップ820)。計算式を以下の例で示す。
P=M*(downN-upN)+rightN-leftN…(2)
ただし、Mは一行の文字数を示す。downN、upNはそれぞれ下の行と上の行に移動の回数を示す。RightNとleftNはそれぞれ右と左に移動の回数を示す。この式(2)は同じページ内の移動位置の計算例を示すが、複数ページにわたる場合はページの変更キー操作を考慮した計算に直せばいい。ユーザがカーソルを用いて誤り箇所に移動することは、例えば正しい文字列“横浜で”を飛ばす目的でカーソルを右に三回に移動したこととなる。これを式(2)で考えると、rightN=3であり、残りのパラメータ=0であるため、結果的に訂正箇所の開始位置P=3となる。誤り始点計算部730は、この結果を誤り時間変換部740に渡す。
誤り時間変換部740では、誤り始点計算部730が計算した始点に対応する時刻を認識結果保存部250の認識結果を参照して判断する(ステップ830)。上記の例においては、誤り時間変換部740が、図5のデータを用いて、訂正箇所の開始位置P=3に対応する時刻を300msと判断する。
一方、ステップ810の判定の結果、訂正入力の場合は(ステップ810:訂正キー)、ユーザにより誤りの内容が訂正される(ステップ840)。上記の例では、ユーザが削除キーを六回押して、文字列の“すっぱいもの”を削除する。削除文字数記憶部760は、削除の回数(ここでは6)を記録し、その値を誤り終点計算部750に渡す。
次に、誤り終点計算部750が、削除文字数記憶部760より渡された内容に基づいて、誤り終点の位置Qを計算する(ステップ850)。計算式を以下の例で示す。
Q=P+K…(3)
ここで、P、Kはそれぞれ誤りの始点位置、削除キーの数を示す。Qは誤り終点の位置を示す。この例ではQ=3+6=9、つまり認識結果の文字列の“の”部分に対応する。誤り終点計算部750は、訂正の始点箇所と終点箇所、或いは訂正した文字数を誤り時間変換部740に通知する。
次に、誤り時間変換部740では、誤り終点計算部750が計算した誤り終点に対応する時刻を認識結果保存部250の認識結果を参照して判断する(ステップ860)。上記の例においては、誤り時間変換部740が、図5のデータを用いて、誤り終点の位置Q=9に対応する時刻を800msと判断する。
次に、訂正内容記憶部770に正しい内容の“スパゲティを”の6文字を入力し、保存する。
以上により、変形例1におけるユーザ操作部260および比較部270にて、誤りの開始時刻および終了時刻と、訂正後の内容が獲得されることについて、説明された。以上の説明以外に、例えば、キーを認識誤りの終点に移動し、バックスペースキーで修正する場合には、種類判定部710がバックスペースキーであることを判断し、誤り終点計算部750はバックスペースキーが押された箇所を誤りの終点と判断する。次に、バックスペースキーの数を検出し、削除した文字の数にする。終点位置から削除した文字の数を引いた数は誤りの始点にする。
以上の例では、誤り箇所の位置計算をキーの操作回数で算出したが、タッチパネルのようなインターフェースにおいてもタッチの箇所を検出することにより、誤り箇所の位置を計算することができる。
<第1実施形態の変形例2>
以下では、第1実施形態の変形例2について説明する。この変形例2の基本構成と処理は第1実施形態と同じであるが、音響モデル修正部1060の構成と処理が第1実施形態と異なる。以下では、図14を参照しながら第1実施形態との違いの部分だけを説明する。図14は変形例2における音響モデル修正部1060の構成図である。
図14に示すように、変形例2における音響モデル修正部1060は、機能的な構成要素として、類似度計算部1310(一致度計算手段)、音素特徴量抽出部1320、および音響モデル修正部1330を含んで構成されている。
一方、前述したように図7はフィードバックデータの例を示している。図7に示すフィードバックデータには、認識結果に対する認識誤り区間の時間情報、および訂正後の文字列が含まれている。このフィードバックデータの時間情報あるいは単語の番号と、認識結果保存部250に保存されている認識結果データを比較するとともに、認識誤り部分(“すっぱいもの“)をフィードバックデータの同時間の単語列に差し替えると、図6に示すような結果となる。このような比較および差し替えの動作は、図9に示した正解区間抽出部1050が行うようにしてもよい。この場合、正解区間抽出部1050は図6に示すような結果をモデル修正部1060に渡す。
図6に示すような結果をモデル修正部1060が受け取ると、まず、類似度計算部1310がフィードバックデータとユーザの元の発声内容(音声認識の本当の正解)とが一致しているかを判断する。すなわち、類似度計算部1310が、修正後の単語とその部分の音響特徴量を用いて、修正後の単語列の正しさ、つまり類似度(一致度)を計算する。この類似度の計算は、例えば非特許文献2(「2パス探索アルゴリズムにおける高速な単語事後確率に基づく信頼度算出法」、李晃伸、河原達也、鹿野清宏、情報処理学会研究報告、2003-SLP-49-48,2003-12)に記載されたような周知の技術を用いて、音響モデルの値と音声データを比較することにより、行うことができる。
類似度計算部1310は、フィードバックデータと元の発声内容とが一致している場合のみ、フィードバックデータを利用させる。フィードバックデータと元の発声内容とが一致していない場合には類似度の値が低くなるが、この場合には、類似度計算部1310がフィードバックデータを除去し利用させない。このとき、類似度に対する所定の閾値を予め決め、その閾値以下の場合にはフィードバックデータを除去し、音素特徴量抽出部1320および音響モデル修正部1330にフィードバックデータを利用させないようにすることが好ましい。フィードバックデータを利用する場合には、類似度計算部1310が当該フィードバックデータを音素特徴量抽出部1320に出力する。
次に、音素特徴量抽出部1320が「正しい部分」(つまり、正解として認識した部分+フィードバックデータにて訂正され且つ類似度が高い部分)の各音素に対応する音響特徴量を抽出すると、音響モデル修正部1330が当該抽出した音響特徴量を利用して音響モデルの修正・更新処理を行う。音素特徴量抽出部1320および音響モデル修正部1330の処理は、図11を参照しながら上記説明した音素単位の音声データ抽出部1220および音素単位モデル修正部1230の処理と基本的には同じであるため、ここでは説明を省略する。ただし、フィードバックデータにて訂正され且つ類似度が高い部分の音響データおよび文字列をもモデル更新に用いることが第1実施形態と相違する。また、正解として認識した部分、およびフィードバックデータにて訂正され且つ類似度が高い部分における、各音素(文字)の時間情報を再度計算してもよい。計算方法は第1実施形態にて音素単位の音声データ抽出部1220(時間情報抽出手段)の説明のところで既に述べたので、ここでは説明を省略する。この場合に、音響モデル修正部1330は当該再度計算した各音素(文字)の時間情報を利用し、モデルを更新する。
<第2実施形態>
引き続き、本発明の第2実施形態について説明する。この第2実施形態の基本構成と処理は第1実施形態と同じであるが、サーバ装置120に新単語抽出部1410(辞書更新手段)および辞書更新部1420(辞書更新手段)が更に備えられていることが異なる。また、言語モデル保持部1030(格納手段)には音声認識を行うための単語辞書が格納されている。以下では、図15を参照しながら第1実施形態との違いの部分だけを説明する。図15は第2実施形態におけるサーバ装置120の構成図である。
フィードバック受信部1080がクライアント装置110からフィードバックデータを受信し、新単語抽出部1410に出力する。新単語抽出部1410はそのフィードバックデータに対し、サーバ装置120にない単語(新しい単語)を抽出する。図7に示したフィードバックデータの場合に、新単語抽出部1410は単語列“スパゲティを”を言語モデル保持部1030に格納された単語辞書と照合し、新しい単語があるかを判定する。この判定の結果、“スパゲティ“という単語が新単語であると判定された場合に、新単語抽出部1410はその旨を辞書更新部1420に通知する。
次に、辞書更新部1420が新単語“スパゲティ“をサーバ装置120側の単語辞書に追加する。追加するときは単語の表記以外に例えば図16に示すように読みの列を追加する。この読みの情報はフィードバックデータに含まれてもいいし、サーバ装置120で独自に解析してもいい。なお、本実施形態において、フィードバックデータ中の単語列”を“は単語辞書に既に存在しており、このため辞書更新部1420は単語列”を“を追加しない。
<第3実施形態>
引き続き、本発明の第3実施形態について説明する。第3実施形態は、ユーザからのフィードバックデータにユーザの意図を反映する重要な情報が含まれているため、その情報を他のアプリに有効に利用するための実施形態である。この第3実施形態におけるクライアント装置110およびサーバ装置120については第1実施形態および第2実施形態と同じであるが、音声認識システム1がユーザープロフィールサーバ1510(ユーザデータベース、ユーザデータベース検索手段、ユーザデータベース更新手段)およびアプリサーバ1520を更に備えることが異なる。以下では、図17、図18を参照しながら第1実施形態および第2実施形態との違いの部分だけを説明する。図17は第3実施形態における音声認識システム1の構成図であり、図18は第3実施形態における音声認識システム1の機能および動作を説明するためのフローチャートである。
サーバ装置120が、「正しい部分」(つまり、正解として認識した部分+フィードバックデータにて訂正され且つ類似度が高い部分)のデータをユーザープロフィールサーバ1510に送信する。本実施形態では、サーバ装置120からの「正しい部分」のデータをユーザープロフィールサーバ1510に反映させ、ユーザがアプリサーバ1520に接続する時に、ユーザープロフィールサーバ1510の保存されているユーザープロフィールデータ(ユーザデータベース)を参照する構成となっている。
ユーザープロフィールデータはユーザに対する情報が格納している。図19にユーザープロフィールデータの一例を示す。ユーザープロフィールデータには、ユーザID、性別、年齢、利用時間を表す情報が当該ユーザに関連付けられて格納されており、これに加えて、幾つかのジャンル(グルメ、活動範囲等)に関する情報が当該ユーザに関連付けられて格納されている。更に、各ジャンルの下に子ジャンル(てんぷら、スパゲティ、横浜、YRP野比、虎ノ門等)には、重要度のスコアが付されている。
図17、図18に戻り、ユーザープロフィールサーバ1510が、サーバ装置120からの「正しい部分」のデータとして“横浜でスパゲティを食べたい”を入力したとする。この場合に、ユーザープロフィールサーバ1510は、当該「正しい部分」のデータのうちフィードバックデータにて訂正され且つ類似度が高い部分に含まれた単語(キーワード)として“スパゲティ”を抽出する(ステップ1610)。そして、このキーワード“スパゲティ”に重要度を設定する(ステップ1620)。本実施形態では、重要度を0.2と設定する。
次に、ユーザープロフィールサーバ1510が、当該「正しい部分」のデータのうち正解として認識した部分に含まれた単語(キーワード)として“横浜”を抽出する(ステップ1630)。そして、このキーワード“横浜”に重要度を設定する(ステップ1640)。本実施形態では、重要度を0.4と設定する。
このように、フィードバックデータの部分と認識結果部分のそれぞれのキーワードに異なる別個の重要度を設定することが好ましい。なぜなら、ユーザがわざと訂正した内容はユーザの特性を反映する意味では特に重要であるからである。このため、ユーザからのフィードバックデータから抽出したキーワードに高い重要度を付与する。
次に、ユーザープロフィールサーバ1510が、ステップ1610〜ステップ1640の重要度付きのキーワードを用いてユーザープロフィールデータを更新する(ステップ1650)。図20に更新後のユーザープロフィールデータの一例を示す。図20に示すように、“スパゲティ”の重要度スコアが0.6と更新されており、“横浜”の重要度スコアが0.5と更新されている。
なお、ユーザープロフィールサーバ1510が「正しい部分」のデータに含まれた上記キーワードを用いてユーザープロフィールデータを検索するようにしてもよい。これにより、上記キーワードに基づいてユーザ情報を容易に取得することができる。また、この検索後の情報をユーザがアプリサーバ1520に接続する際に有効に用いるようにすることが好ましい。例えば、アプリサーバ1520が検索情報の何れかをユーザに推薦情報として提供することができる。なお、非特許文献3(Personalizing WebSearch via Modeling Adaptive User Profile, Lin Li, Masaru Kitsuregawa,Proceedings of Data Engineering Workshop, DEWS2007)に記載された周知の技術を用いれば、ユーザがアプリサーバ1520に接続する際にユーザープロフィールデータを有効に用いることができる。
<本実施形態の作用及び効果>
続いて、第1〜第3実施形態にかかる音声認識システム1の作用及び効果について説明する。音声認識システム1によれば、音声認識を行うサーバ装置120からの音声認識結果に対してユーザが操作を行うことができる。そのため、ユーザは当該音声認識結果に対して誤認識された部分を指摘したり、または正しく直すことが可能となる。これらのユーザの操作をサーバ装置120にフィードバックする。そして、サーバ装置120では、ユーザからのフィードバックを参照して、誤認識された部分を除いてからのデータに基づいてモデル更新を行ったり、または正しく直した部分を更に追加したデータに基づいてモデル更新を行う。このため、モデル更新の精度を高めることができる。このように高い精度で更新された音響モデルや言語モデルを用いれば、より高い性能で音声認識を行うことができる。誤り区間の音声に対して再度認識を行う場合にも、次回入力された音声データに対して初めて認識を行う場合でも、上記高い精度で更新した音響モデルや言語モデルを利用することができる。
第1実施形態にかかる音声認識システム1の構成概要図である。 クライアント装置110およびサーバ装置120のハードウェア構成図である。 第1実施形態にかかるクライアント装置110の機能を示すブロック図である。 第1実施形態にかかるクライアント装置110の機能および動作を説明するためのフローチャートである。 サーバ装置120による音声認識結果の一例を示す図である。 ユーザが図5の音声認識結果を訂正した後の文字列を示す。 クライアント装置110の比較部270が図5の文字列と図6の文字列とを比較した結果であり、フィードバックデータの一例を示す図である。 サーバ装置120に品詞情報等を通知するためにクライアント装置110側で参照するDBの一例を示す図である。 第1実施形態にかかるサーバ装置120の機能を示すブロック図である。 第1実施形態にかかるサーバ装置120の機能および動作を説明するためのフローチャートである。 第1実施形態にかかるモデル修正部1060の機能を示すブロック図である。 第1実施形態の変形例1におけるユーザ操作部260および比較部270の構成図である。 第1実施形態の変形例1におけるユーザ操作部260および比較部270の機能および動作を説明するためのフローチャートである。 第1実施形態の変形例2における音響モデル修正部1060の構成図である。 第2実施形態におけるサーバ装置120の構成図である。 単語とその読みの対応関係を示す図である。 第3実施形態における音声認識システム1の構成図である。 第3実施形態における音声認識システム1の機能および動作を説明するためのフローチャートである。 第3実施形態におけるユーザープロフィールデータの一例を示す図である。 図19のユーザープロフィールデータが更新された様子を示す図である。
符号の説明
1…音声認識システム、100…無線通信ネットワーク、110…クライアント装置、120…サーバ装置、130…音声特徴量データ、140…音声認識結果、150…ユーザ操作情報、210…音声処理部、220…音声データ送信部、230…音声データ保存部、240…認識結果受信部、250…認識結果保存部、260…ユーザ操作部、270…比較部、280…訂正内容通知部、710…種類判定部、720…種類回数記憶部、730…始点計算部、740…時間変換部、750…終点計算部、760…削除文字数記憶部、770…訂正内容記憶部、1010…音声認識部、1020…音響モデル保持部、1030…言語モデル保持部、1040…結果保存部、1050…正解区間抽出部、1060…音響モデル修正部、1070…音声保存部、1080…フィードバック受信部、1090…結果送信部、1100…音声受信部、1210…正解区間音声データ抽出部、1220…音声データ抽出部、1230…音素単位モデル修正部、1310…類似度計算部、1320…音素特徴量抽出部、1330…音響モデル修正部、1410…新単語抽出部、1420…辞書更新部、1510…ユーザープロフィールサーバ、1520…アプリサーバ。

Claims (28)

  1. 音声認識を行うサーバ装置より前記音声認識の結果を文字列として受信する認識結果受信手段と、
    前記文字列に対してユーザが操作を行うための操作手段と、
    前記操作を検出する操作検出手段と、
    当該検出した操作の内容を前記サーバ装置に通知する通知手段と、
    を備えることを特徴とするクライアント装置。
  2. 音声を入力する音声入力手段と、
    前記サーバ装置に前記音声を送信する音声送信手段と、
    を更に備えることを特徴とする請求項1に記載のクライアント装置。
  3. 前記操作検出手段は、前記文字列に対した前記ユーザの操作箇所を検出し、
    前記通知手段は、当該検出した前記操作箇所を前記サーバ装置に通知する、
    ことを特徴とする請求項1または請求項2に記載のクライアント装置。
  4. 前記操作検出手段は、前記ユーザの操作がなかった場合に、その旨を検出し、
    前記通知手段は、前記ユーザの操作がなかった旨を前記サーバ装置に通知する、
    ことを特徴とする請求項1〜3の何れか1項に記載のクライアント装置。
  5. 前記操作手段は、前記文字列に対して前記ユーザが訂正を行うためのものであり、
    前記訂正後の文字列と認識結果受信手段が受信した当初の文字列とを比較する比較手段を更に備え、
    前記操作検出手段は、前記比較手段の前記比較の結果に基づき、前記操作箇所を検出する、
    ことを特徴とする請求項1〜4の何れか1項に記載のクライアント装置。
  6. 前記操作手段は、前記文字列に対して前記ユーザが訂正を行うためのものであり、
    前記訂正後の文字列の内容を判断する判断手段を更に備え、
    前記操作検出手段は、前記判断手段の前記判断の結果に基づき、前記操作箇所を検出する、
    ことを特徴とする請求項1〜4の何れか1項に記載のクライアント装置。
  7. 前記ユーザが前記操作のために押すキーの種類を判定し、且つ前記キーを押した回数をカウントするキー関連手段を更に備え、
    前記操作検出手段は、前記キー関連手段の前記判定および前記カウントの結果に基づき、前記操作箇所の開始箇所を検出する、
    ことを特徴とする請求項1〜6の何れか1項に記載のクライアント装置。
  8. 前記キー関連手段は、前記ユーザが前記操作のために押したキーが削除キーであることを検出し、
    前記操作検出手段は、前記キー関連手段の前記削除キーの検出の結果に基づき、前記操作箇所の終了箇所を検出する、
    ことを特徴とする請求項7に記載のクライアント装置。
  9. 前記通知手段は、前記ユーザの前記操作の内容に対する読み、品詞、文字数の少なくとも一つ以上を通知する、
    ことを特徴とする請求項1〜8の何れか1項に記載のクライアント装置。
  10. 前記操作検出手段は、前記操作箇所の前記開始箇所に基づき、前記操作箇所の終了箇所を検出する、
    ことを特徴とする請求項7に記載のクライアント装置。
  11. 認識結果受信手段が、音声認識を行うサーバ装置より前記音声認識の結果を文字列として受信する認識結果受信ステップと、
    操作手段を用いて、前記文字列に対してユーザが操作を行う操作ステップと、
    操作検出手段が、前記操作を検出する操作検出ステップと、
    通知手段が、当該検出した操作の内容を前記サーバ装置に通知する通知ステップと、
    を備えることを特徴とする認識結果フィードバック方法。
  12. 認識結果受信手段が、音声認識を行うサーバ装置より前記音声認識の結果を文字列として受信する認識結果受信ステップと、
    操作手段を用いて、前記文字列に対してユーザが操作を行う操作ステップと、
    操作検出手段が、前記操作を検出する操作検出ステップと、
    通知手段が、当該検出した操作の内容を前記サーバ装置に通知する通知ステップと、
    をコンピュータに実行させることを特徴とする認識結果フィードバックプログラム。
  13. 音声認識を行うためのモデルを格納する格納手段と、
    クライアント装置より音声を受信する音声受信手段と、
    前記モデルを用いて前記音声に対する前記音声認識を行う音声認識手段と、
    前記音声認識の結果を保存する認識結果保存手段と、
    前記結果を前記クライアント装置に送信する認識結果送信手段と、
    前記クライアント装置より前記認識結果に対するフィードバックデータを受信するフィードバック受信手段と、
    前記認識結果保存手段に保存された音声認識結果と、前記フィードバック受信手段が受信したフィードバックデータを照合し、当該照合の結果に基づき、前記認識結果保存手段に保存された音声認識結果中の正解部分を抽出する抽出手段と、
    前記正解部分のデータを利用し、前記モデルを更新する更新手段と、
    を備えることを特徴とするサーバ装置。
  14. 前記フィードバックデータは、前記認識結果に対する認識誤り区間の時間情報である、
    ことを特徴とする請求項13に記載のサーバ装置。
  15. 前記抽出手段は、前記認識誤り区間の時間情報と、前記認識結果保存手段に保存された音声認識結果における各文字の時間情報とを照合し、当該照合の結果に基づき、前記正解部分を抽出する、
    ことを特徴とする請求項14に記載のサーバ装置。
  16. 前記フィードバックデータは、前記認識結果に対する認識誤り区間の時間情報、および訂正後の文字列である、
    ことを特徴とする請求項13に記載のサーバ装置。
  17. 前記抽出手段は、前記認識誤り区間の時間情報と、前記認識結果保存手段に保存された音声認識結果における各文字の時間情報とを照合し、当該照合の結果に基づき、前記正解部分を抽出し、
    前記更新手段は、前記正解部分のデータ、および前記訂正後の文字列を利用し、前記モデルを更新する、
    ことを特徴とする請求項16に記載のサーバ装置。
  18. 前記訂正後の文字列と、前記ユーザの元の発生内容との間の一致度を計算する一致度計算手段を更に備え、
    前記一致度計算手段は、前記一致度が所定の閾値以下の場合に、前記更新手段に前記訂正後の文字列を前記モデルの更新に利用させない、
    ことを特徴とする請求項17に記載のサーバ装置。
  19. 前記正解部分および前記訂正後の文字列について、各文字に対する時間情報を抽出する時間情報抽出手段を更に備え、
    前記更新手段は、前記時間情報を利用し、前記モデルを更新する、
    ことを特徴とする請求項17に記載のサーバ装置。
  20. 前記格納手段には、前記音声認識を行うための単語辞書が更に格納されており、
    前記訂正後の文字列のうち、前記単語辞書に含まれていないものを新単語として抽出し、前記新単語を前記単語辞書に追加する辞書更新手段を更に備える、
    ことを特徴とする請求項13〜19の何れか1項に記載のサーバ装置。
  21. 前記ユーザに対する情報が格納されたユーザデータベースと、
    前記正解部分および前記訂正後の文字列に含まれた単語を用いて前記ユーザデータベースを検索するユーザデータベース検索手段と、を更に備える
    ことを特徴とする請求項13〜20の何れか1項に記載のサーバ装置。
  22. 前記正解部分に含まれた単語、および前記訂正後の文字列に含まれた単語にそれぞれ個別の重要度を付与し、当該重要度付きの単語を用いて前記ユーザデータベースを更新するユーザデータベース更新手段を更に備える、
    ことを特徴とする請求項21に記載のサーバ装置。
  23. 前記ユーザデータベースには、前記ユーザの利用時間、活動範囲、年齢、性別のうち少なくても一つ以上を表す情報が当該ユーザと関連付けられて格納されている、
    ことを特徴とする請求項21または請求項22に記載のサーバ装置。
  24. 格納手段に、音声認識を行うためのモデルが格納されており、
    音声受信手段が、クライアント装置より音声を受信する音声受信ステップと、
    音声認識手段が、前記モデルを用いて前記音声に対する前記音声認識を行う音声認識ステップと、
    認識結果保存手段が、前記音声認識の結果を保存する認識結果保存ステップと、
    認識結果送信手段が、前記結果を前記クライアント装置に送信する認識結果送信ステップと、
    フィードバック受信手段が、前記クライアント装置より前記認識結果に対するフィードバックデータを受信するフィードバック受信ステップと、
    抽出手段が、前記認識結果保存手段に保存された音声認識結果と、前記フィードバック受信手段が受信したフィードバックデータを照合し、当該照合の結果に基づき、前記認識結果保存手段に保存された音声認識結果中の正解部分を抽出する抽出ステップと、
    更新手段が、前記正解部分のデータを利用し、前記モデルを更新する更新ステップと、
    を備えることを特徴とする音声認識のモデル更新方法。
  25. 格納手段に、音声認識を行うためのモデルが格納されており、
    音声受信手段が、クライアント装置より音声を受信する音声受信ステップと、
    音声認識手段が、前記モデルを用いて前記音声に対する前記音声認識を行う音声認識ステップと、
    認識結果保存手段が、前記音声認識の結果を保存する認識結果保存ステップと、
    認識結果送信手段が、前記結果を前記クライアント装置に送信する認識結果送信ステップと、
    フィードバック受信手段が、前記クライアント装置より前記認識結果に対するフィードバックデータを受信するフィードバック受信ステップと、
    抽出手段が、前記認識結果保存手段に保存された音声認識結果と、前記フィードバック受信手段が受信したフィードバックデータを照合し、当該照合の結果に基づき、前記認識結果保存手段に保存された音声認識結果中の正解部分を抽出する抽出ステップと、
    更新手段が、前記正解部分のデータを利用し、前記モデルを更新する更新ステップと、
    をコンピュータに実行させることを特徴とする音声認識のモデル更新プログラム。
  26. 請求項1に記載のクライアント装置および請求項13に記載のサーバ装置を備えることを特徴とする音声認識システム。
  27. 請求項11に記載の認識結果フィードバック方法および請求項24に記載の音声認識のモデル更新方法を備えることを特徴とする音声認識方法。
  28. 請求項12に記載の認識結果フィードバックプログラムおよび請求項25に記載の音声認識のモデル更新プログラムを備えることを特徴とする音声認識プログラム。
JP2008210849A 2008-08-19 2008-08-19 クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム Pending JP2010048890A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008210849A JP2010048890A (ja) 2008-08-19 2008-08-19 クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008210849A JP2010048890A (ja) 2008-08-19 2008-08-19 クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム

Publications (1)

Publication Number Publication Date
JP2010048890A true JP2010048890A (ja) 2010-03-04

Family

ID=42066045

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008210849A Pending JP2010048890A (ja) 2008-08-19 2008-08-19 クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム

Country Status (1)

Country Link
JP (1) JP2010048890A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012081788A1 (ko) * 2010-12-16 2012-06-21 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
JP2016128924A (ja) * 2010-05-19 2016-07-14 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 対話、及び/又は、命令決定プロセスの操作データの変更
CN111326136A (zh) * 2020-02-13 2020-06-23 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质
CN111382297A (zh) * 2018-12-29 2020-07-07 杭州海康存储科技有限公司 一种用户侧用户数据的上报方法及装置
JP2021081527A (ja) * 2019-11-15 2021-05-27 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
JP7236570B1 (ja) 2022-01-11 2023-03-09 ソフトバンク株式会社 システム、通信端末、及び方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0250198A (ja) * 1988-05-27 1990-02-20 Toshiba Corp 音声認識システム
JP2005234136A (ja) * 2004-02-18 2005-09-02 Ntt Docomo Inc 音声認識サーバ、音声入力システム、及び、音声入力方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0250198A (ja) * 1988-05-27 1990-02-20 Toshiba Corp 音声認識システム
JP2005234136A (ja) * 2004-02-18 2005-09-02 Ntt Docomo Inc 音声認識サーバ、音声入力システム、及び、音声入力方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016128924A (ja) * 2010-05-19 2016-07-14 サノフィ−アベンティス・ドイチュラント・ゲゼルシャフト・ミット・ベシュレンクテル・ハフツング 対話、及び/又は、命令決定プロセスの操作データの変更
US9842591B2 (en) 2010-05-19 2017-12-12 Sanofi-Aventis Deutschland Gmbh Methods and systems for modifying operational data of an interaction process or of a process for determining an instruction
US10629198B2 (en) 2010-05-19 2020-04-21 Sanofi-Aventis Deutschland Gmbh Medical apparatuses configured to receive speech instructions and use stored speech recognition operational data
US11139059B2 (en) 2010-05-19 2021-10-05 Sanofi-Aventis Deutschland Gmbh Medical apparatuses configured to receive speech instructions and use stored speech recognition operational data
WO2012081788A1 (ko) * 2010-12-16 2012-06-21 엔에이치엔(주) 온라인 음성인식을 처리하는 음성인식 클라이언트 시스템, 음성인식 서버 시스템 및 음성인식 방법
US9318111B2 (en) 2010-12-16 2016-04-19 Nhn Corporation Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method
CN111382297A (zh) * 2018-12-29 2020-07-07 杭州海康存储科技有限公司 一种用户侧用户数据的上报方法及装置
JP2021081527A (ja) * 2019-11-15 2021-05-27 エヌ・ティ・ティ・コミュニケーションズ株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
CN111326136A (zh) * 2020-02-13 2020-06-23 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质
CN111326136B (zh) * 2020-02-13 2022-10-14 腾讯科技(深圳)有限公司 语音处理方法、装置、电子设备及存储介质
JP7236570B1 (ja) 2022-01-11 2023-03-09 ソフトバンク株式会社 システム、通信端末、及び方法
JP2023102137A (ja) * 2022-01-11 2023-07-24 ソフトバンク株式会社 システム、通信端末、及び方法

Similar Documents

Publication Publication Date Title
US9947317B2 (en) Pronunciation learning through correction logs
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
TWI427620B (zh) A speech recognition result correction device and a speech recognition result correction method, and a speech recognition result correction system
US8612212B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US11682381B2 (en) Acoustic model training using corrected terms
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
Mandal et al. Recent developments in spoken term detection: a survey
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
CN101415259A (zh) 嵌入式设备上基于双语语音查询的信息检索系统及方法
JPWO2005122144A1 (ja) 音声認識装置、音声認識方法、及びプログラム
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP2010048890A (ja) クライアント装置、認識結果フィードバック方法、認識結果フィードバックプログラム、サーバ装置、音声認識のモデル更新方法、音声認識のモデル更新プログラム、音声認識システム、音声認識方法、音声認識プログラム
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP4966324B2 (ja) 音声翻訳装置、および方法
CN100568222C (zh) 歧义消除语言模型
JP5238395B2 (ja) 言語モデル作成装置および言語モデル作成方法
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
KR102392992B1 (ko) 음성 인식 기능을 활성화시키는 호출 명령어 설정에 관한 사용자 인터페이싱 장치 및 방법
JP2014137636A (ja) 情報検索装置及び情報検索方法
KR102217621B1 (ko) 사용자 발화의 오류를 교정하는 방법 및 장치
Chien et al. A spoken‐access approach for chinese text and speech information retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110329

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120424

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120706

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130129