JP2018045001A - 音声認識システム、情報処理装置、プログラム、音声認識方法 - Google Patents

音声認識システム、情報処理装置、プログラム、音声認識方法 Download PDF

Info

Publication number
JP2018045001A
JP2018045001A JP2016178014A JP2016178014A JP2018045001A JP 2018045001 A JP2018045001 A JP 2018045001A JP 2016178014 A JP2016178014 A JP 2016178014A JP 2016178014 A JP2016178014 A JP 2016178014A JP 2018045001 A JP2018045001 A JP 2018045001A
Authority
JP
Japan
Prior art keywords
word
recognition result
recognition
data
result data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016178014A
Other languages
English (en)
Inventor
未友 前田
Miyu Maeda
未友 前田
藤田 健
Takeshi Fujita
健 藤田
厚 小久保
Atsushi Kokubo
厚 小久保
章敬 中島
Akinori Nakajima
章敬 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016178014A priority Critical patent/JP2018045001A/ja
Publication of JP2018045001A publication Critical patent/JP2018045001A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】音声認識により誤認識された文字等を修正できる音声認識システムを提供する。【解決手段】音声データに音声認識を行うクラウドサーバと、クラウドサーバに音声データを送信する情報処理装置とを有する音声認識システムであって、情報処理装置は、音声データの認識結果を含む認識結果データを取得する取得手段11bと、第一の単語と第二の単語が対応付けて登録された単語情報の第一の単語が認識結果データに含まれる場合、認識結果データの第一の単語を第二の単語で置き換える単語置換手段15と、単語置換手段が第一の単語を第二の単語で置き換えた認識結果データを出力する出力手段13と、を有する。【選択図】図5

Description

本発明は、音声認識システム、情報処理装置、プログラム及び音声認識方法に関する。
人が発声する音声をマイクから取得し、音声認識を行うことでテキストデータに変換する音声認識技術が知られている。音声認識技術が適用された装置やシステムは音声を集音することで、例えば会議の議事録を作成したり、電話の内容を記録したりすることができる。テキストデータに変換されていればキーワードなどを簡単に検索することもできるようになる。
一方で、音声認識技術では、ユーザが正しく発声したにも関わらず、誤認識される場合がある。例えば、「普通」と発声した場合に「苦痛」と認識されるような場合である。また、同音異義語があるため正しく認識できない場合もある。例えば、「理工」という意味で発声したが「利口」という単語に変換されるような場合である。
従来からこれらのような誤認識結果の修正を行う技術が考案されている(例えば、特許文献1参照。)。特許文献1には、声認識処理により変換した第1文字列情報のうち、ユーザによって一部又は全部が選択された場合、選択された第1文字と、その第1文字と発音が同じで表記が異なる第2文字に関連するキーワードを含む第2音声情報とに基づいて、選択された第1文字を第2文字に変換する情報制御装置が開示されている。
しかしながら、特許文献1に開示された誤認識結果の修正方法では、変換された文字列の一部又は全てをユーザが選択する必要があるという問題がある。例えば、誤認識されている単語が含まれている可能性が高い場合でも、ユーザが手動で文字列を選択する必要があり、ユーザの負担になってしまう。
本発明は、上記課題に鑑み、音声認識により誤認識された文字等を修正できる音声認識システムを提供することを目的とする。
本発明は、音声データに音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムであって、音声データの認識結果を含む認識結果データを取得する取得手段と、第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換える単語置換手段と、前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力する出力手段と、を有する。
音声認識により誤認識された文字等を修正できる音声認識システムを提供することができる。
音声認識の結果の修正方法を説明する図の一例である。 音声認識システムの概略構成図の一例である。 情報処理装置の概略的なハードウェア構成図の一例である。 情報処理装置の機能をブロック状に示す機能ブロック図の一例である。 音声認識システムの動作手順を示すシーケンス図の一例である。 単語置換部が行う処理の内容を示すフローチャート図の一例である。 単語置換部が行う処理の内容を示すフローチャート図の一例である(実施例2)。 単語置換部が行う処理の内容を示すフローチャート図の一例である(実施例3)。
以下、本発明を実施する音声認識システムと音声認識システムが行う音声認識方法について、図面を参照しながら実施例を挙げて説明する。
<音声認識システムの動作の概略>
図1は、音声認識の結果の修正方法を説明する図の一例である。
(1)情報処理装置10は音声認識により得られた「… したがって、A部品をB部品を差し込む気候により…」というテキストデータ(以下、認識結果データ8という)を有している。
(2)情報処理装置10は、認識変換テーブルDB19bに登録されている誤認識候補単語で認識結果データ8を検索する。認識変換テーブルDB19bには「気候」という誤認識候補単語と「機構」という変換後単語が対応付けられている。
(3)認識結果データ8には「気候」という誤認識候補単語が含まれているので、情報処理装置10は、認識結果データ8の「気候」という誤認識候補単語を「機構」という変換後単語で置き換える。
これにより、認識結果データ8で誤認識された「気候」という単語を正しい認識結果である「機構」に修正できる。
「機構」のように専門的な単語や固有名詞(社名、人名、地名等)などは誤認識されやすく、換言すると正しく認識しづらい単語である。本実施形態ではこのように、認識変換テーブルに、認識しづらい変換後単語と誤認識しやすい誤認識候補単語を対応付けておくことで、認識しづらい単語を正しい単語に修正できる。また、ユーザが誤認識候補単語を指定したり選択したりする必要がない。
<システム構成例>
図2は、本実施形態の音声認識システム100の概略構成図の一例である。音声認識システム100は、ネットワークNを介して通信する情報処理装置10(第二の情報処理装置)とクラウドサーバ50(第一の情報処理装置)を有する。
クラウドサーバ50は、音声をテキストデータに変換するサービスを行う情報処理装置の一例である。サーバ装置と呼ばれる場合がある。クラウドサーバ50はクラウドベースの人口知能を利用しているため(つまり、多くの人が使う単語を学習しているため)、専門的な単語や造語、又は、使用頻度が極めて少ない単語を認識できない、又は認識しにくい。
また、クラウドサーバ50のクラウドとは、サーバがクラウドコンピューティングに対応していることを意図している。クラウドとは特定ハードウェア資源を意識しないでネットワーク上のリソースを利用する利用形態である。この場合、クラウドサーバ50は、1つの筐体に収納されていたり、又は、一台の装置として備えられていたりする必要はない。例えば、負荷に応じてハード的なリソースが動的に接続・切断されることで構成されてよい。また、一台の情報処理装置10の中の仮想化環境に構築されていたり、複数台の情報処理装置10に跨って構築されたりしてもよい。
また、本実施形態ではクラウドサーバ50はインターネット上に存在するものとして説明するが、ネットワークに接続されていればどこに存在してもよい。オンプレミスに存在してもよい。また、クラウドサーバ50はリソースの所在が明らかになっている通常のサーバであっても本実施形態に適用可能である。
情報処理装置10は、例えばPC(Personal Computer)であるが情報処理装置としての機能を有する装置であればよい。PCの他、情報処理装置10は例えば電子黒板、テレビ会議端末、MFP(Multi-Function Peripheral)、プロジェクタ、デジタルサイネージなどでもよい。また、PCの他、スマートフォン、タブレット端末、ゲーム機、PDA(Personal Digital Assistant)、デジタルカメラ、携帯電話、ウェアラブルPC(Personal Computer)などでもよい。
ネットワークNは、情報処理装置10が設置されている施設などに構築されているLAN、LANをインターネットに接続するプロバイダのプロバイダネットワーク、及び、回線事業者が提供する回線等により構築されている。ネットワークNが複数のLANを有する場合、ネットワークNはWANやインターネットと呼ばれる。ネットワークNは有線又は無線のどちらで構築されてもよく、また、有線と無線が組み合わされていてもよい。また、情報処理装置10が3G、LTE、4Gなどで直接、公衆回線網に接続する場合は、LANを介さずにプロバイダネットワークに接続することができる。
音声認識システム100による音声のテキストは一般的に以下のように行われる。
(1)ユーザが発声した音声データが情報処理装置10からネットワーク経由でクラウドサーバ50に送信される。なお、音声データの形式は問わない。ストリームデータ(データの生成と送信がリアルタイムに行われるデータ)でもよいし、ストリームではないファイルなどの固まりのデータでもよい。
(2)クラウドサーバ50は音声データに音声認識処理を行いテキストデータに変換する。認識の際、クラウドサーバ50は単語ごとに認識の信頼度を算出する。認識の信頼度は、認識結果をどれだけ「信頼」してよいかを表す尺度である(1に近いほど信頼度が高い)。また、変換候補が複数ある場合は、1つの単語に複数の候補とそれぞれの信頼度が作成される。
(3)信頼度を含む認識結果データ8がネットワーク経由で情報処理装置10に送信される。
(4)情報処理装置10は、認識結果データ8を表示する。例えば、認識結果データ8を信頼度に応じて色分けするなどして表示する。ユーザが単語をマウスなどのポインティングデバイスで押下すると、情報処理装置10は他の変換候補を表示したり、信頼度を表示したりする。
<ハードウェア構成>
図3は、情報処理装置10の概略的なハードウェア構成図の一例である。情報処理装置10は、CPU201と、CPU201が使用するデータの高速アクセスを可能とするメモリ202とを備える。CPU201及びメモリ202は、システム・バス203を介して、情報処理装置10の他のデバイス又はドライバ、例えば、グラフィックス・ドライバ204及びネットワーク・ドライバ(NIC)205へと接続されている。
グラフィックス・ドライバ204は、バスを介してLCD(ディスプレイ装置)206に接続されて、CPU201による処理結果をモニタする。また、ネットワーク・ドライバ205は、トランスポート層レベル及び物理層レベルで情報処理装置10をネットワークNへと接続して、クラウドサーバ50とのセッションを確立させている。
システム・バス203には、さらにI/Oバス・ブリッジ207が接続されている。I/Oバス・ブリッジ207の下流側には、PCIなどのI/Oバス208を介して、IDE、ATA、ATAPI、シリアルATA、SCSI、USBなどにより、HDD(ハードディスクドライブ)209などの記憶装置が接続されている。HDD209は情報処理装置10の全体を制御するプログラム209pを記憶している。HDD209はSSD(Solid State Drive)でもよい。
また、I/Oバス208には、USBなどのバスを介して、キーボード及びマウス(ポインティング・デバイスと呼ばれる)などの入力装置210が接続され、システム管理者などのオペレータによる入力及び指令を受け付けている。
また、I/Oバス208には、マイクI/Fなどを介してマイク211が接続されている。マイク211は周囲の音声を集音して電気信号に変換し、所定のサンプリング周波数で電気信号を取り込むことでデジタルデータに変更する。
なお、クラウドサーバ50のハードウェア構成はマイク211やLCD206が不要となるなどの違いがあるが、本実施形態の説明に際しては支障がないものとする。また、クラウドサーバ50のハードウェア構成は、1つの筐体に収納されていたりひとまとまりの装置として備えられていたりする必要はない。
<機能について>
図4(a)は、情報処理装置10の機能をブロック状に示す機能ブロック図の一例である。情報処理装置10は、通信部11、音声入力部12、表示部13、制御部14、及び、単語置換部15を有する。これら各機能は、図3に示したHDD209からメモリ202に展開されたプログラム209pをCPU201が実行することにより実現されている。なお、このプログラム209pは、プログラム配信用のサーバから配信されてもよいし、USBメモリや光記憶媒体などの可搬性の記憶媒体に記憶された状態で配布されてもよい。
また、情報処理装置10は、図3に示したHDD209及びメモリ202の少なくとも一方に実現される記憶部19を有する。記憶部19には、テキスト変換結果DB19a(Data Base)と認識変換テーブルDB19bが構築される。以下、これらのデータベースについて説明する。
Figure 2018045001
表1は、認識変換テーブルDB19bに格納されている認識変換テーブルを模式的に示す。認識変換テーブルには、誤認識候補単語と変換後単語が対応付けられている。変換後単語は、例えば、専門的な単語、固有名詞、特定の業種や部署で使用される造語、又は、使用頻度が少ない単語などである。本実施形態では、これらを認識しづらい単語という。変換後単語は、実際に音声認識された際に誤認識される確率や経験則で誤認識される確率が所定以上の単語として選定されている。実際に音声認識することなく、コーパス内の出現頻度が所定以下の単語を誤認識候補単語としてもよいし、誤認識される可能性が高いと考えられる単語が誤認識候補単語として定められていてもよい。
誤認識候補単語は、変換後単語が誤認識されている可能性が高い単語である。すなわち、変換後単語は認識しづらいので、変換後単語に対し誤って認識される可能性がある単語が誤認識候補単語である。例えば変換後単語の「機構」に対し、「気候」「紀行」「寄稿」「気孔」「技巧」「技工」が誤認識候補単語である。ただし、この関係が一例であって、例えば「気孔」が変換後単語になる場合もあり得る。
後述するように、情報処理装置10は認識変換テーブルを参照し、認識結果データ8の単語が誤認識候補単語と一致する場合、誤認識候補単語を変換後単語に置き換える。
なお、認識変換テーブルDB19bには、実際に単語置換部15や制御部14が表示すると決定した表示内容の情報も記憶される。
Figure 2018045001
表2は、テキスト変換結果DB19aに記憶される認識結果データ8を模式的に示す。テキスト変換結果DB19aは認識結果データ8が記憶されるデータベースである。表2(a)は認識結果データ8が英語の場合の認識結果データ8を示し、表2(b)は認識結果データ8が日本語の場合の認識結果データ8を示す。
表2(a)の認識結果データ8は、「Absolute」という音声が入力された場合に認識された認識結果を示す。本実施形態のクラウドサーバ50からは1つの単語に対し、複数のテキスト化候補と対応する信頼度が送信される。信頼度は 0.0 〜 1.0 の範囲の値を取り、数値が1.0 に近いほど正しい認識結果である可能性が高い。より具体的には、1つの認識対象の単語に対しテキスト化候補となる単語との類似度などが算出され0.0 〜 1.0 の数値で表されている。
表2(b)の認識結果データ8は、「機構」という音声が入力された場合の認識結果を示す。英語の「Absolute」と単語と同様に、複数のテキスト化候補と対応する信頼度がクラウドサーバ50から送信される。
(情報処理装置10の機能)
音声入力部12は、図3に示したCPU201がプログラム209pを実行しマイク211を制御すること等により実現され、テキストデータへの変換の対象となる音声データの入力を受け付ける。なお、マイク211から音声データが入力される場合、音声データはストリームデータと呼ばれる。マイク211が使用されない場合、音声データはファイルとして記憶されている。音声入力部12はこのファイルをHDD209等から読み出すことで取得してもよい。音声データが格納されるファイルとしては、WAVEファイル、AIFFファイル、MP3ファイル、AACファイル等があるがこれらには限られない。
通信部11は、図3に示したCPU201がプログラム209pを実行しネットワーク・ドライバ205を制御すること等により実現される。通信部11はさらに、音声送信部11aと認識結果受信部11bを有する。音声送信部11aは、音声入力部12が入力を受け付けた音声データをWebSocket、HTTP、HTTPsなどの通信プロトコルでクラウドサーバ50に送信する。クラウドサーバ50のIPアドレスは予め既知であるとする。認識結果受信部11bは、音声データがテキストデータに変換された認識結果データ8をクラウドサーバ50から例えばHTMLデータで受信する。
制御部14は、図3に示したCPU201がプログラム209pを実行すること等により実現され、ユーザインタフェースからの入力の受付やそれに応じて情報処理装置10の制御を行う。
単語置換部15は、図3に示したCPU201がプログラム209pを実行すること等により実現され、制御部14からの指示によりLCD206に表示する表示内容を決定する。また、認識結果受信部11bが受信した音声認識データの単語を、認識変換テーブルを参照して置き換える。
表示部13は、図3に示したCPU201がプログラム209pを実行しグラフィックス・ドライバ204を制御すること等により実現される。表示部13は、テキスト変換結果DB19aの認識結果データ8や単語置換部15が単語を置き換えた認識結果データ8をLCD206に表示する。
<<クラウドサーバの機能について>>
図4(b)はクラウドサーバ50の機能をブロック状に示す機能ブロック図の一例である。クラウドサーバは、前処理部31、特徴抽出部32、及び識別演算部33を有し、識別演算部33はさらに音響モデル34と言語モデル35を使用する。これら各機能は、図3に示したHDD209からメモリ202に展開されたプログラム209pをCPU201が実行することにより実現されている。
前処理部31は音声データに特徴抽出しやすくするための処理を施す。例えば、音声データを決まった段階に量子化する。また、前処理部31は音声データを周波数スペクトルに変換して雑音に相当する周波数部分を除去するなどの処理を行う。特徴抽出部32は音声データからパターンの認識に役立つ情報を取り出す。音声データは連続データなので例えば20ミリ秒などの所定時間ごとに音声データを区切って、この所定時間ごとに特徴を抽出する。音声データの場合、例えば、周波数スペクトルに変換してフォルマント又はMFCC(Mel Frequency Cepstrum Coefficient)を抽出する。フォルマントやMFCCの求め方は公知なので説明を省略する。これにより、音声データから数十次元の特徴ベクトルが得られる。
識別演算部33は音響モデル34と言語モデル35を使って、音声データをテキストデータに変換する。音響モデル34は音声の波形とその時の音声のテキストデータを紐付けたものである。音声の波形は一例としてトライフォンと呼ばれる3つの音素が組み合わされた組音素で表される。言語モデル35はテキストデータから作成された単語と単語のつながり方を確率で表現したデータである。たとえば、「特許を」に続いて「取る」「取得する」「放棄する」などの単語がそれぞれどのくらいの確率で出現するかというデータを有する。識別演算部33は入力された音声データの特徴ベクトルと音響データを比較しトライフォンを推定する。これを連続して行い言語モデル35を参照しながら最も出現確率が高い単語を推定していく。音声データが音響データとどのくらい類似しているか、及び、言語データの出現確率によっては単語が一意に定まらないため、入力された音声データの単語に対し複数の単語が推定される場合も多い。また、出現確率に基づいて信頼度が算出される。
なお、ここで説明した音声認識方法は一例に過ぎず、クラウドサーバ50に特有の方法で音声認識されてよい。本実施形態の単語の置き換えはクラウドサーバ50の音声認識方法に関係なく適用できる。ただし、信頼度が得られるとなお好ましい。
<動作手順>
図5は、音声認識システム100の動作手順を示すシーケンス図の一例である。
S1:ユーザは情報処理装置10のLCD206に表示されたソフトキーやハードキーを押下して音声認識を開始するための操作を行う。どのように音声認識を開始するかは情報処理装置10が具体的にどのような装置であるかによって異なる。例えばPCの場合、クラウドサーバ50から送信されたHTMLデータを解析して表示した画面のスタートボタンを押下する。また、電子黒板やテレビ会議端末の場合、他拠点の情報処理装置10とセッションが確立することで音声認識がスタートしてよい。
音声認識が開始されるとユーザは、テキストデータに変換したい音声をマイク211が集音できる態様で発声する。上記のように、ユーザが音声のファイルを入力してもよい。
S2:音声入力部12は音声データをサンプリングする処理を繰り返し、アナログの音声をデジタルの音声データに変換して、音声送信部11aに送出する。
S3:音声送信部11aは例えばWebSocketを使用して音声データをクラウドサーバ50に送信する。HTTPやHTTPsなどの通信プロトコルで送信してもよい。しかし、WebSocketによって両者の間に永続的なTCPコネクションを構築することができ、双方がそれぞれ必要に応じて送信を開始できるようになる。サーバ側からも任意のタイミングで通信を開始することができるため、ストリームデータの処理に適している。
S4:クラウドサーバ50は音声データをテキストデータに変換する。
S5:クラウドサーバ50は認識結果データ8を情報処理装置10に送信する。
S6:情報処理装置10の認識結果受信部11bは認識結果データ8を受信し、認識結果受信部11bは認識結果データ8を記憶部19に送出する。
S7:記憶部19は、テキスト変換結果DB19aに認識結果データ8を記憶させる。
S8:単語置換部15は、テキスト変換結果DB19aを監視しており、新たな認識結果データ8が記憶されるとそれを読み出す。
S9、S10:単語置換部15は、認識変換テーブルを記憶部19に要求し、記憶部19から認識変換テーブルを読み出す。
S11:単語置換部15は、認識変換テーブルの誤認識候補単語が認識結果データ8に含まれているか否かを判断する。含まれている場合、認識結果データ8の誤認識候補単語を変換後単語で置き換える。
S12:単語置換部15は、誤認識候補単語が変換後単語で置き換えられた認識結果データ8を表示部13に送出する。この認識結果データは表示されるため表示内容と呼ばれる場合がある。
S13:単語置換部15が表示部に表示内容を送出すると、表示内容の表示準備が完了した旨を制御部14に通知する。
S14:これを受けて制御部14は表示部13に表示内容の表示を指示する。
S15:表示部13は単語置換部15から送出された表示内容をLCD206に表示する。
S16:ユーザは発声した音声の認識結果を確認する。なお、表示内容を表示するのでなく、記憶部19や記憶媒体に記憶するだけでもよいし、プリンタで印刷してもよい。また、情報処理装置10が任意の装置に送信してもよい。すなわち、認識結果データ8は何らかの形態で出力されればよい。
<<単語置換部15の処理について>>
図6は、単語置換部15が行う処理の内容を示すフローチャート図の一例である。図6の処理は、図5のステップS11にて実行される。
単語置換部15は信頼度を含む認識結果データ8と認識変換テーブルを取得する(S11−1)。
次に、単語置換部15は認識変換テーブルの誤認識候補単語が認識結果データ8に含まれているか否かを判断する(S11−2)。
ステップS11−2の判断結果がYesの場合、認識結果データ8の誤認識候補単語を認識変換テーブルの変換後単語を用いて置き換える(S11−3)。複数の誤認識候補単語がある場合は、全てを置き換える。
ステップS11−2の判断結果がNoの場合、単語置換部15は置き換えを行わない。
以上説明したように、本実施例の音声認識システム100は、認識しづらい単語と誤認識される可能性がある誤認識候補単語が予め記憶部19に記憶されているので、認識しづらい単語を正しい単語に修正できる。
本実施例では、クラウドサーバ50から送信される誤認識候補単語の信頼度を利用して、変換後単語への置き換えを行うか否かを判断する情報処理装置10について説明する。
なお、本明細書において、同一の符号を付した構成要素については、同様の機能を果たすので、一度説明した構成要素の説明を省略あるいは相違点についてのみ説明する場合がある。具体的には、図2のシステム構成、図3のハードウェア構成、図4の機能ブロック図、及び、図5のシーケンス図については実施例1と同様であるため、これらを再掲することなく必要に応じて参照して説明する。
本実施例では、単語置換部15が、誤認識候補単語の信頼度が閾値以下の場合に、誤認識候補単語を変換後単語で置き換える。実施例1では、誤認識候補単語が正しい認識結果の場合でも自動的に変換後単語に置き換えられていたが、本実施例では信頼度が閾値より低い場合にだけ置き換えることが可能になる。
このため、本実施例では、認識変換テーブルが実施例1とは異なっている。以下、説明する。
Figure 2018045001
表3は、本実施例の認識変換テーブルを模式的に示す。誤認識候補単語ごとに、閾値が登録されている。この誤認識候補単語の信頼度が対応付けられた閾値以下の場合、単語置換部15は誤認識候補単語を変換後単語で置き換える。こうすることで、誤認識候補単語の信頼度が高い場合は変換後単語で置き換えられないので、クラウドサーバ50の認識結果が正しい場合に情報処理装置10が誤って置き換えることを抑制できる。
また、誤認識候補単語ごとに閾値が設定されているので、管理者等は誤認識候補単語ごとに置き換えるか否かの閾値を適切に決定できる。情報処理装置10の管理者等は、例えば何らかのコーパスで使用頻度の高い誤認識候補単語ほど閾値を低く設定できる。これにより、使用頻度が高い誤認識候補単語は置き換えられにくくなる。
< 単語置換部15の処理について >
図7は、単語置換部15が行う処理の内容を示すフローチャート図の一例である。図7の処理は、図5のステップS11にて実行される。
図7の処理では図6との相違を主に説明する。まず、ステップS11−1とS11−2は図6と同様でよい。
ステップS11−2の判断結果がYesの場合、単語置換部15は、誤認識候補単語の信頼度が、認識変換テーブルの誤認識候補単語に対応付けられた閾値以下か否かを判断する(S11−3)。
ステップS11−3の判断がYesの場合、単語置換部15は誤認識候補単語を変換後単語を用いて置き換える(S11−4)。複数の誤認識候補単語がある場合は、各誤認識候補単語の信頼度と閾値の比較結果に応じて個別に判断する。
ステップS11−3の判断結果がNoの場合、単語置換部15は置き換えを行わない。
したがって、本実施例の情報処理装置10は、実施例1の効果に加え、クラウドサーバ50の認識結果が正しい場合に情報処理装置10が誤って置き換えることを抑制できる。
本実施例では、トピックごとに認識変換テーブルが用意されている情報処理装置10について説明する。
トピックとは、音声が伝える情報の内容である。トピックは、例えば、話題、論題、議題、分野、カテゴリーなどと呼ばれる場合があり、音声が伝える情報の内容を表す表現であればよい。認識変換テーブルがトピックごとに用意されている場合、管理者等がトピックと関連性が高い変換後単語のみを認識変換テーブルに登録しておけばよい。これにより、情報処理装置10は、トピックと関連性が高い変換後単語が誤認識された場合には、誤認識候補単語により変換後単語に置き換えることができる。換言すると、トピックとの関連性が低い変換後単語は認識変換テーブルに登録されないので、トピックで認識変換テーブルを区別しない場合に登録され得る誤認識候補単語(つまり実施例1、2の誤認識候補単語)が認識変換データに含まれていても、誤って置き換えることを抑制できる。
本実施例においても、図2のシステム構成、図3のハードウェア構成、図4の機能ブロック図、及び、図5のシーケンス図については実施例1と同様であるため、これらを参照して説明する。
本実施例では、認識変換テーブルが実施例1、2とは異なっている。以下、説明する。
Figure 2018045001
表4は、本実施例の認識変換テーブルを模式的に示す。表4の認識変換テーブルでは、トピックごとに、誤認識候補単語、変換後単語、閾値1(第一の閾値),及び、閾値2(第二の閾値)が対応付けられている。トピックの一例として、「社内」「IT」「建築」が挙げられているが、特許、不動産、金融、経理、法務など多種多様なトピックがあり得る。
社内というトピックの認識変換テーブルは実施例2と同様である。ITというトピックの認識変換テーブルでは「アーカイブ」という変換後単語がいくつかの誤認識候補単語に対応付けられている。建築というトピックの認識変換テーブルでは「アーキテクト」という変換後単語がいくつかの誤認識候補単語に対応付けられている。
トピックごとに変換後単語が登録されれば、トピックごとの誤認識候補単語も少なくてよいため、情報処理装置10による検索も高速になるという利点がある。
1つの誤認識候補単語に対応付けられている複数の閾値(閾値1,閾値2)について説明する。
・閾値1は、トピックが判明していない場合、ユーザがトピックを入力しなかった場合、
又は、入力されたトピックが認識変換テーブルのトピックと合致しなかった場合に使用される。
・閾値2は、トピックが合致した場合に使用される。
1組の誤認識候補単語と変換後単語に着目すると、閾値1より閾値2の方が大きい。これは、トピックが分かっている場合、クラウドサーバ50が認識する誤認識候補単語の信頼度が高くなるためである。信頼度が高くなっても閾値2の値も大きいため、トピックと関連性が高い変換後単語に置き換えやすくなる。
< 単語置換部15の処理について >
図8は、単語置換部15が行う処理の内容を示すフローチャート図の一例である。図8の処理は、図5のステップS11にて実行される。トピックについてはユーザが会話を開始する前に情報処理装置10に入力されているものとする。制御部14はユーザが入力したトピックを受け付ける。
単語置換部15は信頼度を含む認識結果データ8と認識変換テーブルを取得する(S11−1)。
次に、単語置換部15はユーザが入力したトピックが認識変換テーブルに含まれているか否かを判断する(S11−2)。なお、この判断はユーザがトピックを入力した時に行ってよい。
ステップS11−2の判断がYesの場合、単語置換部15は認識変換テーブルの誤認識候補単語が認識結果データ8に含まれているか否かを判断する(S11−3)。認識結果データ8で検索される誤認識候補単語は、トピックが合致するものに限られる。
ステップS11−3の判断結果がYesの場合、単語置換部15は、誤認識候補単語の信頼度が、認識変換テーブルの誤認識候補単語に対応付けられた閾値1以下(第一の閾値以下)か又は閾値2以下(第二の閾値以下)かを判断する(S11−4)。ステップS11−2でYesと判断されているため、閾値2を採用すると決定する。トピックが決まっているので信頼度が高くなっていても、誤認識候補端を変換後単語で置き換えられる。
ステップS11−4の判断がYesの場合、単語置換部15は誤認識候補単語を変換後単語を用いて置き換える(S11−5)。複数の誤認識候補単語がある場合は、各誤認識候補単語の信頼度と閾値の比較結果に応じて個別に判断する。
ステップS11−2の判断結果がNoの場合、単語置換部15は認識変換テーブルの誤認識候補単語が認識結果データ8に含まれているか否かを判断する(S11−6)。認識結果データ8で検索される誤認識候補単語は、認識変換テーブルの全ての誤認識候補単語である。
ステップS11−6の判断結果がYesの場合、処理はステップS11−4に進むが、ステップS11−2でNoと判断されているので、閾値1を採用すると決定する。
このように、トピックごとに認識変換テーブルが用意されていることで、クラウドサーバ50の認識結果が正しい場合に情報処理装置10が不要な置換を行うことを抑制できる。また、置き換えに要する時間を短縮できる。
<変形例>
表4の認識変換テーブルでは、異なるトピックに同じ変換後単語は含まれていないが、異なるトピックに同じ変換後単語が含まれている場合に、閾値2があることで適切な変換が可能にある。
誤認識候補単語が正しいか又は誤認識されているかはトピックによって変わりうる。例えば、日常会話というトピックで「きこう」は「気候」という誤認識候補単語が正しい場合があり、開発会議というトピックで「きこう」は「機構」という誤認識候補単語が正しい場合がある。このような知見がある場合、管理者等は「気候」と「機構」の閾値2を各トピックで適切に設定することができる。
Figure 2018045001
表5は認識変換テーブルの一例を模式的に示す。2つのトピックである「日常会話」と「開発会議」のそれぞれに誤認識候補単語の「気候」と変換後単語の「機構」が登録されている。「日常会話」の「気候」の閾値2は0.30であり、「開発会議」の「気候」の閾値2は0.50である。
したがって、トピックが「日常会話」の場合に、認識結果データ8に「気候」が含まれている場合、閾値2が小さいので「機構」に置き換えられにくくなる。この結果、「日常会話」ではクラウドサーバ50が正しく認識した単語を誤って置き換えることを抑制できる。また、トピックが「開発会議」の場合に、認識結果データ8に「気候」が含まれている場合、閾値2が大きいので「機構」に置き換えられやすい。この結果、「開発会議」ではクラウドサーバ50が誤って認識した単語を正しい単語に置き換えることができる。
<まとめ>
本実施形態の音声認識システム100は、認識変換テーブルに認識しづらい変換後単語と誤認識しやすい誤認識候補単語を対応付けておくことで、クラウドサーバ50が認識しづらい単語を、本来の単語に修正できる。また、誤認識候補単語に対応付けられている閾値を利用することで、不要な置き換えを抑制できる。さらに、トピックごとに認識変換テーブルが用意されることで、誤って置き換えることを抑制できる。また、認識結果データ8の検索に要する時間を短縮できる。
<その他の適用例>
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
例えば、本実施形態ではクラウドサーバ50がインターネット上にあると説明したが、クラウドサーバ50は情報処理装置10と同じLANに接続されていてもよい。また、音声認識データはクラウドサーバ50から送信される必要はなく、情報処理装置10のHDD209に記憶されていてもよい。すなわち、音声認識データはファイル形式で保持されていてもよい。
また、クラウドサーバ50の音声認識に関する機能を情報処理装置10が有していてもよい。この場合、情報処理装置10は単体で音声認識を行い、認識結果データを認識変換テーブルに基づいて置き換える。
また、クラウドサーバ50が複数有り、1台の情報処理装置10が認識結果データを修正してもよい。あるいは、1台のクラウドサーバ50が送信する認識結果データを、複数の情報処理装置10が分担して修正してもよい。
また、認識結果データを表示する例を説明したが、認識結果データで何らかの装置を操作したり、ネットワークの検索のキーワードとしたりすることもできる。また、字幕のように表示してもよい。
また、本実施形態では、単語という単位で置き換えを行ったが、より長い単位の文節や分で置き換えてもよい。また、単語よりも小さい文字などの単位で置き換えを行ってもよい。
また、図4の構成例は、情報処理装置10の処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。また、情報処理装置10の処理は、処理内容に応じてさらに多くの処理単位に分割することもできる。また、1つの処理単位がさらに多くの処理を含むように分割することもできる。
なお、認識結果受信部11bは取得手段の一例であり、単語置換部15は単語置換手段の一例であり、表示部13は出力手段の一例であり、認識変換テーブルは単語情報の一例であり、誤認識候補単語は第一の単語の一例であり、変換後単語は第二の単語の一例であり、制御部14は受付手段の一例である。
10 情報処理装置
11 通信部
12 音声入力部
13 表示部
14 制御部
15 単語置換部
19 記憶部
50 クラウドサーバ
100 音声認識システム
特開2016−111497号公報

Claims (11)

  1. 音声データに対し音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムであって、
    音声データの認識結果を含む認識結果データを取得する取得手段と、
    第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換える単語置換手段と、
    前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力する出力手段と、
    を有する音声認識システム。
  2. 前記第二の単語は誤認識される可能性が所定以上の単語であり、前記第一の単語は前記第二の単語が誤認識された単語である請求項1に記載の音声認識システム。
  3. 前記認識結果データの単語には認識結果の信頼度が対応付けられており、
    前記単語情報には、前記第一の単語と前記第二の単語に対応付けて閾値が登録されており、
    前記単語置換手段は、前記第一の単語が前記認識結果データに含まれる場合、前記第一の単語の信頼度と前記単語情報に登録されている閾値の比較の結果に基づいて、前記認識結果データの前記第一の単語を前記第二の単語で置き換えるかどうかを決定する請求項1又は2に記載の音声認識システム。
  4. 前記単語置換手段は、前記第一の単語が前記認識結果データに含まれる場合、前記第一の単語の信頼度が前記単語情報に登録されている閾値以下の場合にのみ、前記認識結果データの前記第一の単語を前記第二の単語で置き換える請求項3に記載の音声認識システム。
  5. 前記単語情報は、音声データが伝える情報の内容ごとに用意されている請求項3又は4に記載の音声認識システム。
  6. 前記単語情報には、1つの前記第一の単語に複数の前記閾値が対応付けられており、
    前記音声データが伝える情報の内容の入力を受け付ける受付手段を有し、
    前記受付手段が受け付けた前記音声データが伝える情報の内容に対し用意された前記単語情報があるか否かに応じて、
    前記単語置換手段は、前記第一の単語の信頼度と比較する前記閾値を決定する請求項5に記載の音声認識システム。
  7. 前記受付手段が受け付けた前記音声データが伝える情報の内容に対し用意された前記単語情報がない場合、
    前記単語置換手段は、前記第一の単語が前記認識結果データに含まれ、かつ、前記第一の単語の信頼度が第一の閾値以下の場合にのみ、前記認識結果データの前記第一の単語を前記第二の単語で置き換え、
    前記受付手段が受け付けた前記音声データが伝える情報の内容に対し用意された前記単語情報がある場合、
    前記単語置換手段は、前記第一の単語が前記認識結果データに含まれ、かつ、前記第一の単語の信頼度が第二の閾値以下の場合にのみ、前記認識結果データの前記第一の単語を前記第二の単語で置き換え、
    前記第一の閾値は前記第二の閾値よりも小さい請求項6に記載の音声認識システム。
  8. 前記音声データが伝える情報の内容が異なる前記単語情報には、
    同じ前記第一の単語が登録されており、それぞれの前記第一の単語に対応付けられている前記閾値が異なっている請求項6又は7に記載の音声認識システム。
  9. 音声データの認識結果を含む認識結果データを取得する取得手段と、
    第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換える単語置換手段と、
    前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力する出力手段と、
    を有する情報処理装置。
  10. 情報処理装置を、
    音声データの認識結果を含む認識結果データを取得する取得手段と、
    第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換える単語置換手段と、
    前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力する出力手段、として機能させるためのプログラム。
  11. 音声データに対し音声認識を行う第一の情報処理装置と、前記第一の情報処理装置に音声データを送信する第二の情報処理装置とを有する音声認識システムが行う音声認識方法であって、
    取得手段が、音声データの認識結果を含む認識結果データを取得するステップと、
    単語置換手段が、第一の単語と第二の単語が対応付けて登録された単語情報の前記第一の単語が前記認識結果データに含まれる場合、前記認識結果データの前記第一の単語を前記第二の単語で置き換えるステップと、
    出力手段が、前記単語置換手段が前記第一の単語を前記第二の単語で置き換えた前記認識結果データを出力するステップと、
    を有する音声認識方法。
JP2016178014A 2016-09-12 2016-09-12 音声認識システム、情報処理装置、プログラム、音声認識方法 Pending JP2018045001A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016178014A JP2018045001A (ja) 2016-09-12 2016-09-12 音声認識システム、情報処理装置、プログラム、音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016178014A JP2018045001A (ja) 2016-09-12 2016-09-12 音声認識システム、情報処理装置、プログラム、音声認識方法

Publications (1)

Publication Number Publication Date
JP2018045001A true JP2018045001A (ja) 2018-03-22

Family

ID=61694848

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016178014A Pending JP2018045001A (ja) 2016-09-12 2016-09-12 音声認識システム、情報処理装置、プログラム、音声認識方法

Country Status (1)

Country Link
JP (1) JP2018045001A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042131A (ja) * 2018-09-10 2020-03-19 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP6836094B1 (ja) * 2020-08-03 2021-02-24 富士通クライアントコンピューティング株式会社 情報処理装置および情報処理プログラム
JP2021076623A (ja) * 2019-11-05 2021-05-20 TXP Medical株式会社 音声入力支援システム
WO2021130892A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 変換テーブル生成装置、音声対話システム、変換テーブル生成方法、音声対話方法および記録媒体
WO2021153321A1 (ja) * 2020-01-29 2021-08-05 株式会社インタラクティブソリューションズ 会話解析システム
JP2022088586A (ja) * 2021-04-12 2022-06-14 阿波▲羅▼智▲聯▼(北京)科技有限公司 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
JP7387849B1 (ja) 2022-09-22 2023-11-28 鉄道情報システム株式会社 自動券売システム

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042131A (ja) * 2018-09-10 2020-03-19 Zホールディングス株式会社 情報処理装置、情報処理方法、およびプログラム
JP2021076623A (ja) * 2019-11-05 2021-05-20 TXP Medical株式会社 音声入力支援システム
JP7414078B2 (ja) 2019-12-25 2024-01-16 日本電気株式会社 変換テーブル生成装置、音声対話システム、変換テーブル生成方法、およびコンピュータプログラム
WO2021130892A1 (ja) * 2019-12-25 2021-07-01 日本電気株式会社 変換テーブル生成装置、音声対話システム、変換テーブル生成方法、音声対話方法および記録媒体
JPWO2021130892A1 (ja) * 2019-12-25 2021-07-01
JP2021117475A (ja) * 2020-01-29 2021-08-10 株式会社インタラクティブソリューションズ 会話解析システム
WO2021153321A1 (ja) * 2020-01-29 2021-08-05 株式会社インタラクティブソリューションズ 会話解析システム
CN114080640A (zh) * 2020-01-29 2022-02-22 互动解决方案公司 对话分析系统
CN114080640B (zh) * 2020-01-29 2022-06-21 互动解决方案公司 对话分析系统
US11881212B2 (en) 2020-01-29 2024-01-23 Interactive Solutions Corp. Conversation analysis system
JP2022028436A (ja) * 2020-08-03 2022-02-16 富士通クライアントコンピューティング株式会社 情報処理装置および情報処理プログラム
JP6836094B1 (ja) * 2020-08-03 2021-02-24 富士通クライアントコンピューティング株式会社 情報処理装置および情報処理プログラム
JP2022088586A (ja) * 2021-04-12 2022-06-14 阿波▲羅▼智▲聯▼(北京)科技有限公司 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
JP7349523B2 (ja) 2021-04-12 2023-09-22 阿波▲羅▼智▲聯▼(北京)科技有限公司 音声認識方法、音声認識装置、電子機器、記憶媒体コンピュータプログラム製品及びコンピュータプログラム
JP7387849B1 (ja) 2022-09-22 2023-11-28 鉄道情報システム株式会社 自動券売システム

Similar Documents

Publication Publication Date Title
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
US9437192B2 (en) Method and device of matching speech input to text
US11049493B2 (en) Spoken dialog device, spoken dialog method, and recording medium
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
JP6327848B2 (ja) コミュニケーション支援装置、コミュニケーション支援方法およびプログラム
JP5042799B2 (ja) 音声チャットシステム、情報処理装置およびプログラム
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
US9484034B2 (en) Voice conversation support apparatus, voice conversation support method, and computer readable medium
US11494434B2 (en) Systems and methods for managing voice queries using pronunciation information
JP2017058674A (ja) 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
JPWO2018055983A1 (ja) 翻訳装置、翻訳システム、および評価サーバ
JP6625772B2 (ja) 検索方法及びそれを用いた電子機器
US20180288109A1 (en) Conference support system, conference support method, program for conference support apparatus, and program for terminal
US20210034662A1 (en) Systems and methods for managing voice queries using pronunciation information
JP2020507165A (ja) データ可視化のための情報処理方法及び装置
JP6922178B2 (ja) 音声認識システム、情報処理装置、プログラム
JP5901694B2 (ja) 辞書データベース管理装置、apiサーバ、辞書データベース管理方法、及び辞書データベース管理プログラム
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP6429294B2 (ja) 音声認識処理装置、音声認識処理方法およびプログラム
US11410656B2 (en) Systems and methods for managing voice queries using pronunciation information
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
JP6810363B2 (ja) 情報処理装置、情報処理システム、および情報処理プログラム
JP2013250490A (ja) 処理装置、処理システム、音声認識方法及びプログラム
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
US11935539B1 (en) Integrating voice controls into applications