JP5068225B2 - 音声ファイルの検索システム、方法及びプログラム - Google Patents

音声ファイルの検索システム、方法及びプログラム Download PDF

Info

Publication number
JP5068225B2
JP5068225B2 JP2008170021A JP2008170021A JP5068225B2 JP 5068225 B2 JP5068225 B2 JP 5068225B2 JP 2008170021 A JP2008170021 A JP 2008170021A JP 2008170021 A JP2008170021 A JP 2008170021A JP 5068225 B2 JP5068225 B2 JP 5068225B2
Authority
JP
Japan
Prior art keywords
computer
processing
keyword
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008170021A
Other languages
English (en)
Other versions
JP2010009446A (ja
Inventor
伸泰 伊東
岳人 倉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2008170021A priority Critical patent/JP5068225B2/ja
Publication of JP2010009446A publication Critical patent/JP2010009446A/ja
Application granted granted Critical
Publication of JP5068225B2 publication Critical patent/JP5068225B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

この発明は、音声認識によって作成されたテキストの処理に関し、より詳しくは、音声ファイルから、音声認識によって作成されたテキストの検索に関するものである。
近年、ビジネス・インテグリティなどの目的で、コールセンターや営業店での会話を録音し、その録音した音声に対して、音声認識を実行してテキスト化し、その後、検索やテキスト・マイニングの処理を行う、という試みが行われている。
テキスト・マイニングやキーワード検索においては、辞書を用いた言語処理が行われることが一般的である。その際、未知の単語や新しい単語に遭遇した場合は、辞書に新たにその単語が登録されるため、辞書が更新されることになる。
特に日本語においては、仮名、漢字、アルファベット表記のどれを用いるかなど、表記の揺れが大きいので、言語処理用辞書では、さまざまな表記の同意語を登録することが一般的である。しかし、音声認識においては、同一の発音をもつ同義語が登録されていると、そのいずれを出力するかを区別する手段がなく、語彙増大による認識精度低下を招く。そこで、できる限り単一の表記のみ登録し、言語モデルのエントロピーを下げるように留意することが求められる。
例えば、「しくみさい」という音声認識の結果、「仕組み債」と「仕組債」の2とおりの表記がありえるが、「仕組み債」に統一する、というような具合である。
また、音声認識と後段の処理では、それぞれの都合で、異なる単位とする必要があることも多いが、その場合問題はさらに複雑になる。つまり、前段の音声認識でどのような単位・表記が用いられているかを常に意識して、言語処理用の辞書登録やキーワード入力を行わなくてはならない。
しかし、音声認識の結果に対する言語モデルの詳細は分からないため、ユーザは、前段の音声認識に適合するような言語処理用の辞書登録やキーワード入力を行うことは、困難であった。
特開平7−152756号公報は、かな漢字変換、音声合成、音声認識といった辞書を用いる処理において、目的別の辞書を一つにまとめ、保守の容易化、容量の低減を図ることを開示する。
特開平8−314915号公報は、複数の変換機能に対応する辞書手段を構成し、当該辞書手段に対して複数のインデックスを用いて検索を行う情報の表現態様変換装置を開示する。
特開2000−339305号公報は、キーボードによる入力と音声による入力の2つの入力方法を使って、より入力精度と入力操作性を向上させて文書作成を行う技法を開示する。
特開2004−145014号公報は、文法と辞書の管理を容易に行なうことができ、且つ、入力された音声に忠実に応答を行ない得る自動音声応答装置及び自動音声応答方法を開示する。
[NAGATA 1999](詳細は下記)は、未知語検索に関する技術を開示する。
[MORI 1999] (詳細は下記)は、確率的モデルによる仮名漢字変換技術を開示する。
特開平7−152756号公報 特開平8−314915号公報 特開2000−339305号公報 特開2004−145014号公報 [NAGATA 1999] Nagata, M. : A part of speech estimation method for Japanese unknown words using a statistical model of morphology and context, Proc. of the 37th ACL, pp277-284, 1999 [MORI 1999] 森信介,土屋雅稔,山地治,長尾真. 確率的モデルによる仮名漢字変換. 情報処理学会論文誌. Vol.40, No.7, pp.2946-2953. 1999.
上記の従来技術を組みあわせても、依然として、音声ファイルを適切に検索するための、音声認識の言語モデルを意識したキーワード入力の必要性の問題は解消されない。
従って、この発明の目的は、音声認識と後段の言語処理や検索をつなげるため、音声認識用辞書の内容をできるだけ意識せず、容易に新語登録やキーワード入力を可能にすることにある。
通常新語登録やキーワード入力においてはコンピュータの仮名漢字変換機能を用いて行われる。つまりその段階では「読み」を入力するわけであるが、その読みは表記確定後捨てられる。一方音声認識用の辞書つまり言語モデルでは必ず読みが必要であり、表記・読み、単語の共起確率を保持している。
本発明は、その点に着目してなされたものであり、音声ファイルにテキストのキーワードをつけるために使用される音声認識用の辞書つまり言語モデルと同一の言語モデルを、後段の新語登録及び検索時の「読み」の変換に使用するようにしたものである。
音声ファイルをテキストに変換するためにはまず、アナログ音声信号が、ディジタル信号に変換され、そこから、所定の時間窓での離散フーリエ変換に周波数領域の信号が生成され、そこから対数スペクトル生成され、さらに離散コサイン変換により、ケプストラムが生成される。ケプストラムからはさらに、周知の技術により、波形の振幅、基本周波数、パワースペクトル包絡などが抽出され、これらが、音響特徴量となる。音響モデルは、この音響特徴量を元に、発話の各部分がどの単語の可能性があるかを判定するために使用される。この際、音響モデルは、確率モデルを用いて、可能性のある単語を確率的に求める。
こうして、可能性のある単語の列が決められると、これに言語モデルが適用される。言語モデルは、文脈(近接する単語)から、どのような単語列が一番尤もらしいかを、確率モデルを用いて、予測・判定する。
本発明によれば、新語登録やキーワード入力においてはまず「読み」がユーザによって入力される。この読みが、音声認識用の言語モデルと同一の言語モデルにより発音・表記変換され、以って仮名漢字表記が得られる。次に、得られた仮名漢字表記を、適宜修正語、及び元の文字列と比較することによって、音声認識辞書の未知語が同定される。変換結果のキーワードは、音声ファイルの音声認識によって形成した索引データを検索するために使用することができる。未知語の部分は、適宜音声認識辞書に登録することができる。
この発明によれば、音声認識と後段の言語処理や検索において、音声認識用辞書の内容を意識せず、容易に新語登録やキーワード入力を可能にすることにが可能ならしめられる。
以下、図面を参照して、本発明の一実施例の構成及び処理を説明する。以下の記述では、特に断わらない限り、図面に亘って、同一の要素は同一の符号で参照されるものとする。なお、ここで説明する構成と処理は、一実施例として説明するものであり、本発明の技術的範囲をこの実施例に限定して解釈する意図はないことを理解されたい。
図1は、本発明を実施するためのハードウェア構成の一実施例を示す概要ブロック図である。図1の構成は、個別のユーザが検索を行うための、好適には複数のクライアント・システム110と、音声データ・ファイルを検索可能に蓄積する音声蓄積サーバ120と、音声データから、音声認識を行って、音響モデルと言語モデルに従い、索引データを作成するための音声認識サーバ130と、クライアント・システム110、音声蓄積サーバ120及び音声認識サーバ130を接続するためのネットワーク140からなる。
ネットワーク140は、LAN、WAN、インターネット、イントラネットなど任意の接続形態を利用することができる。
また、このような、クライアント・システム110、音声蓄積サーバ120及び音声認識サーバ130が別個に離隔してネットワーク140で接続された構成は必須ではなく、音声データ、及び索引をローカル・システムにコピーすることによって、スタンドアロンで本発明のシステムを構成することもできる。
クライアント・システム110には、ウェブ・ブラウザ112が導入されている。ウェブ・ブラウザ112は、JavaScript(商標)などの、コンテンツ内スクリプトを解釈する機能をもち、ユーザからの入力を受付け、クライアント・システム110側の通信インターフェース114及び、音声蓄積サーバ120側の通信インターフェース122を介して、音声蓄積サーバ120側のPerl、PHPなどのプログラムと連携して、検索動作を行う。なお、JavaScript(商標)を使用することなく、一般的なHTMLの組み込みフォームと、CGIの組み合わせを用いることもできる。
あるいは、音声蓄積サーバ120側で、サーブレットまたはJSPのようなサーバ・サイドJava(商標)の仕組みで、検索機能を構築してもよい。
音声蓄積サーバ120は、音声データ124、及び、音声データ124に蓄積されている個々の音声ファイルを検索するための検索データ126をもつ。ここで、音声データ124は、例えば、コールセンターの会話、放送番組、ポッドキャストデータなどである。音声データのままの形式では、検索することが困難なため、音声データは逐次、通信インターフェース122、ネットワーク140及び通信インターフェース136を介して、音声認識サーバ130に送られる。
音声認識サーバ130は、音声ファイルを音声認識して索引テキストを生成するための、音響モデル132と言語モデル134をもつ。生成された索引テキストは、通信インターフェース136及び通信インターフェース122を介して、音声蓄積サーバ120に、索引データ126として提供される。
音声蓄積サーバ120側での検索機能は、PostgreSQL、MySQLなどのデータベース検索システムにより実現することができる。
音声認識サーバ130の言語モデル134は、ネットワーク140及び各々の通信インターフェースを介して、クライアント・システム110及び音声蓄積サーバ120からも、アクセス可能となされている。
言語モデル134はまた、認証された特殊なユーザのクライアント・システム110からの操作によって、単語の登録、編集、削除などの操作を受け付けるようにしてもよい。
図2は、クライアント・システム110、音声蓄積サーバ120及び音声認識サーバ130のハードウェア構成のより詳細なブロック図を、総称的に示す。
図2の構成は、メインメモリ204と、CPU206とをもち、これらは、バス202に接続されている。CPUは、好適には、32ビットまたは64ビットのアキーテクチャに基づくものであり、例えば、インテル社のPentium(R) 4、Xeon(R)、Core 2 DUO、AMD社のAthlon(R)などを使用することができる。バス202には、ディスプレイ・コントローラ208を介して、LCDモニタなどのディスプレイ210が接続される。ディスプレイ210は、クライアント・システム110においては、ユーザがウェブブラウザ112を眺めつつ、検索を行うために使用される。音声蓄積サーバ120においては、システム管理者が、JavaScript(商標)やPHPなどのプログラムを書いて、クライアント・システム110から呼び出し可能に登録したり、クライアント・プログラム110を介してアクセスするユーザーのユーザーIDとパスワードを登録したりするために使用される。
バス202にはまた、IDEコントローラ212を介して、ハードディスク214と、DVDドライブ216が接続される。
クライアント・システム110の場合、ハードディスク214には、オペレーティング・システム、ウェブ・ブラウザ112その他のプログラムが、メインメモリ204にロード可能に記憶されている。好適なオペレーティング・システムとして、これには限定されないが、Windows(R)XP、Windows(R) Vista、Linux(R)、Mac OSなど、TCP/IPネットワーキング機能をサポートしている任意のオペレーティング・システムを使用することができる。
音声蓄積サーバ120の場合、ハードディスク214には、オペレーティング・システム、音声データのファイル124、及び索引データのファイル126が格納されている。好適なオペレーティング・システムとして、これには限定されないが、Windows(R)2003 Server、Linux(R)、Mac OSなど、TCP/IPネットワーキング機能をサポートしている任意のオペレーティング・システムを使用することができる。ハードディスク214にはさらに、音声認識サーバ120をデータベース・サーバとして働かせるための、ApacheやTomcatなどのプログラムも導入されている。
音声認識サーバ130の場合、ハードディスク214には、オペレーティング・システム、音響モデルのファイル132、及び言語モデルのファイル134が格納されている。好適なオペレーティング・システムとして、これには限定されないが、Windows(R)2003 Server、Linux(R)、Mac OSなど、TCP/IPネットワーキング機能をサポートしている任意のオペレーティング・システムを使用することができる。ハードディスク214にはさらに、音声認識サーバ120をアプリケーション・サーバとして働かせるための、ApacheやTomcatなどのプログラムも導入されている。
DVDドライブ216は、必要に応じて、CD−ROMまたはDVDディスクからプログラムをハードディスク214に追加導入するために使用される。バス202には更に、キーボード・マウスコントローラ220を介して、キーボード220と、マウス222が接続されている。
通信インターフェース224は、好適にはイーサネット・プロトコルに従うものであり、コンピュータ本体と、ネットワーク140とを、物理的に接続する役割を担い、コンピュータのオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワークインターフェース層を提供する。ここで、図示されている構成は、有線接続構成であるが、例えば、IEEE802 11a/b/gなどの無線LAN接続規格に基づき、無線LAN接続するものであってもよい。
また、通信インターフェース224は、イーサネットプロトコルに限定されるものではなく、例えば、トークンリングなどの任意のプロトコルに従うものでよく、特定の物理的通信プロトコルに限定されない。
図3は、音声認識サーバ130で実行される、音声認識処理の機能を説明するための機能ブロック図である。この処理プログラムは、音声認識サーバ130のハードディスク・ドライブに格納されて、必要に応じてメインメモリに呼び出される。図3で、入力信号302は、好適には、音声蓄積サーバ122の音声データのファイル124から、個別の音声ファイルとして、ネットワーク140を介して提供される。音声認識サーバ130では、音声データのファイルを一旦ハードディスクにセーブして、音声ファイル・プレーヤのプログラムにかけることで再生し、その再生アナログ信号を、入力信号302としてもよい。
音響処理ブロック304では、アナログ入力信号302が、一旦A/D変換により、ディジタル信号に変換される。もし入力信号302が予めディジタル信号であるなら、A/D変換は不要である。
音響処理ブロック304ではさらに、所定の時間窓での離散フーリエ変換に周波数領域の信号が生成され、そこから対数スペクトル生成され、さらに離散コサイン変換により、ケプストラムが生成される。ケプストラムからはさらに、周知の技術により、波形の振幅、基本周波数、パワースペクトル包絡などが抽出され、これらが、音響特徴量となる。
復号化ブロック306では、音響処理ブロック304から入力された音響特徴量に対して、音響モデル308と、言語モデル310を適用することによって、入力信号302を音声認識した結果のテキストが得られる。
より詳しく述べると、音響モデル308は、HMMなどの確率モデルを用いて、尤度の高い音素の並びを得るために使用される。
一方、言語モデル310は、音響モデル308の適用によって得られた音素の並びから、語彙辞書312を用いて、どのような単語列が一番尤もらしいか、を判定するために使用される。例えば、「ぽすとはあかい」のように、ほぼ聞こえる単語の並びとして、「ポスト は 赤い」、「コスト わ 高い」、「ホスト 輪 仲居」、・・・などがあり得るが、このうち、言語モデル310は、「ポスト は 赤い」が最尤と判定することになる。
このようにして得られた音声認識した結果のテキスト(単語列)は、任意の他のアプリケーション・プログラム314で使用することができる。本実施例では、音声認識された結果のテキスト・データは、音声認識サーバ130から、音声蓄積サーバ120に送られて、音声ファイルに関連付けて、索引データのファイル126に格納される。なお、音声ファイルを音声認識した結果のテキストを、索引として音声ファイルに関連付ける技術は、これらには限定されないが、本出願人に係る、特開2000−348064及び特開2006−178087などに記述されている。
次に、図4以下のフローチャートを参照して、本発明の一実施例の処理について説明する。図4のステップ402では、所定のグラフィック・ユーザ・インターフェース(GUI)を用いて、ユーザが、単語・フレーズの「読み」を入力する。なお、このGUIの例は、図6に示す。また、このGUIは、図1のクライアント・システム110上で実行されることに留意されたい。
ここで例えば、ユーザは、「株券貸借取引」という単語(複合語)を入力すると仮定すると、図6の、読みフィールドとして示されている、テキスト・フィールド602に、「かぶけんたいしゃくとりひき」と入力する。
ステップ404では、言語モデルを使った発音・表記変換が実行される。すなわち、音声認識用辞書と、その言語モデルをもちいて、発音から表記への変換が行われる。このための処理プログラムは、好適には、音声認識サーバ130にあり、クライアント・システム110は、CGI、JSPなどの仕組みで、単に音声認識サーバ130上のプログラムを呼び出す。また、音声認識用辞書と、その言語モデルは、音声認識サーバ130上にあるものが、ネットワーク140を介してアクセスされて使用される。音声認識用辞書と、その言語モデルは、図1では、言語モデル134として総称的に示されている。この場合、必要に応じて、音声蓄積サーバ120で、音声認識サーバ130上の音声認識用辞書と、その言語モデルのレプリカを作成し、そちらの方を理由するようにしてもよい。
さて、ある入力記号列から言語モデルを元にした最適出力列を得る手法は、例えば、上述の[MORI 1999]に書かれている手法を使用することができる。そこでは、入力かな列Yを条件とする仮名漢字交じりの単語列の条件付確率を最大にするような単語列Wが選択される。数式であわらすと下記のとおりである。
Figure 0005068225
図4のステップ404の詳細なステップのフローチャートを、図5に示す。ステップ502では、入力されたかな列が、音声認識用辞書に対応付けるために、処理プログラムによって、音素記号列に変換される。ここで、音素記号とは音声を構成する音の種類を分類し、そのそれぞれに対応した記号であり、日本語の場合母音、子音合わせて50程度の種類がある。読み(Sounds-like)から発音記号列への変換は必ずしも1対1ではないため、その場合複数の記号列が出力される。しかしその数は高々数個にとどまり、同じ処理をそれぞれについて行い、最後にそのそれぞれの確率を比較、最大のものを選択することで得られるので、以降では一意に発音記号列が決まった場合について記述する。
例えば、「かぶけんたいしゃくとりひき」からは以下のような発音記号列(H)が得られる。
H = /k/a/b/u/k/e/_n/t/a/i/sy/a/k/u/t/o/r/i/h/i/k/i/
その後、上記数式(1)で、Yを発音記号列Hで置き換えた式により、最適な単語列Wが選択される訳であるが、そのため数式(1)を下記のように変形する。
Figure 0005068225
ここでP(H|W)は各単語がどのように読まれるか、を示す確率であり、P(W)は単語列の出現確率であり、例えばN-gramモデルにより計算される。この2つの値は、音声認識エンジンが一般的に辞書・言語モデルとして保持している情報から計算することが可能である。言い換えれば上記式の右辺に基づいて確率値最大のWを選択することであり、この処理は音にあいまい性がなく音響モデルが理想的であった場合の音声認識を行った結果(単語列)と解釈することができ、それが以下のステップ504、506及び508である。その実施においては、図3に示すように音声認識エンジンの内、音響処理された結果音素列が一意に決定されたとして復号化ブロック306に入力される。
ステップ504では、着目する記号へのインデックスとなるポインタが、発音記号列の最左(この例では、/k/)に設定される。
ステップ506では、上記ポインタから始まる右部分列について辞書引きが実施され、当該発音に合致する単語が、候補として得られる。ここでは「課/ka」「株/kabu」「株券/kabuke_n」などが候補となる。以上は未知語が存在しないと仮定した場合であるが、どのような辞書においても未知語は存在するのが普通である。したがってこのステップにおいて、辞書に存在しなかった部分音素列、たとえば「kabuke」についても、それが未知語であったと仮定し、表記不明の単語Wunk=<kabuke>として候補に追加してもよい。その場合表記が不明である単語に対してP(H|W)をどう計算するのかが問題となる。いわゆる形態素解析等では数多くの未知語モデルが提案されている(例えば、前述の[NAGATA 1999])が、発音・表記変換では(その部分が未知語であると指摘され変換されないことに)メリットがないためほとんど議論されていない。そこで、ここでは、未知語Wunk部分の「音素列」をh(=h1h2,…,hN)、各音素(hi)の出現確率をP(hi)として、次のようなモデルを考える。
Figure 0005068225
この式で、右辺の第1項であるP(N|Wunk)は当該単語がN個の音素からなる読みをもつ確率であり、第2項は入力の部分列を構成する当該音素列が出現する確率を音素の1-gramにより近似している。なお、音素列は記号列の1つと考えられるが、記号列の出現確率を効率的に近似する手法は他にもさまざま存在する。例えば、第1項をポアソン分布、第2項をより高次のN-gramとするなどの手法を適用することができる。
ステップ508では、言語モデルが参照され、ステップ506で得られた単語(列)候補について生起確率が計算される。例えば、N-gramによるならば言語モデルを参照し、
P(「課」) = P(開始記号→「課」) = 0.0001
P(「株」) = P(開始記号→「株」) = 0.0005
P(「株券」) = P(開始記号→「株券」) = 0.0025
といった計算が行われる。
ステップ510では、確率の絶対値または他の候補と比較した相対値が十分小さいと判断された単語(列)は除外し、以降の繰り返し計算を行わない。そうでない場合は各候補のそれぞれについて、ステップ512でポインタが更新され、ステップ506から処理が、繰り返される。上記の例では、たとえば確率の高い上位2個である「株」と「株券」が残され、「課」は棄却される。そして「株」を選択したとすると、ポインタは「/k/a/b/u/」の直後である「k」(左から5音素目))に置かれ、その位置からステップ506の処理が繰り返され、5音素以降にマッチする候補単語、たとえば「倦怠/ ke_ntai」が候補単語となる。このような繰り返しによりさまざまな候補単語列が得られるが、その多くは確率が十分低いため、この過程において棄却されることになる。「株券」の場合もまったく同様に、ポインターを「/k/a/b/u/k/e/_n/」の次音素である「t」に進め、ステップ506以降が繰り返される。
結果的に、図5の処理の結果、音声認識辞書と言語モデルを用いた変換結果が1つまたは複数リストされるので、ユーザは、そのうちの1つをマウス操作により、選択することになる。この結果、図6に示すように、「かぶけんたいしゃくとりひき」が表示されているテキスト・フィールド602の下のテキスト・フィールド604に、選択された結果である、「株券体癪取引」が表示される。
また実際の実装においてはViterbi、Dymanic Programmingに基づいた上記を高速化するためさまざまな工夫が行われるが、すでによく知られた手法でありここでは詳述しない。
図4に戻って、 誤っている箇所があった場合、または未知語であると判断された場合は、ステップ406で、ユーザが、当該箇所にカーソルを合わせ、好適には通常の仮名漢字変換機能を使って、修正する。ここでの変換は、図6の「変換」ボタン606をクリックによって、行われるが、キーボード上の変換キーを叩いてもよい。ここでの仮名漢字変換機能は、クライアント・コンピュータ110に備わっているものでよい。例えば、図6では、「たいしゃく」の部分が「体癪」となっているので、「貸借」と修正することになる。
ステップ408では、最初に変換された「株券体癪取引」と、修正後の「株券貸借取引」がシステムによって比較され、これによって、「株券/かぶげん」と、「取引/とりひき」の部分は正しく、「貸借/たいしゃく」に相当する箇所が音声認識辞書にとって未知語であることが検出される。
次のステップ410に行って、ユーザが「確定」ボタン608をクリックすると、音声認識辞書に対して未知語である、「貸借/たいしゃく」が、既知語である「株券」または「取引」を伴って、「株券→貸借」または、「貸借→取引」というコンテキストで、音声認識辞書に登録される。一旦音声認識辞書に登録されると、次回の音声ファイルの音声認識処理に際して、この音声認識辞書が、言語モデル310によって使用される。
一方、ステップ410で、ユーザが「検索」ボタン610をクリックすると、現段階では、音声認識辞書に対して「貸借」が未知語であり、よって正しく検索できない可能性があるので、システムは、メッセージ・ウインドウを生成するなどして、警告する。いずれにしても、ユーザが「検索」ボタン610をクリックすることによって、ステップ602の読みに対して、音声認識辞書に基づく変換結果からユーザが選んだキーワードが、クライアント・コンピュータ110が音声蓄積サーバ120に送られ、音声蓄積サーバ120は、送られたキーワードに基づき索引データ126を検索する。
そして、音声蓄積サーバ120は、索引データ126において、そのキーワードにヒットするものがみつかると、ヒットした索引データに関連付けられている音声ファイルのリストを、クライアント・コンピュータ110に返す。
クライアント・コンピュータ110は、受け取った音声ファイルのリストを、別のウインドウに表示し、そこから適宜、クライアント・コンピュータ110のユーザがリスト中の音声ファイルのリンク(図示しない)をクリックすることにより、当該音声ファイルの内容を聴くことができる。
なお参考までに、下記は、発音・表記変換のサンプルである。
下記の例で、左側の数字は、は当該結果の確率をPとした場合の-kΣlogP (但し、kは整数化するための係数で、ここでは256とし、対数の底は10を用いている) を示し、<..>uは、未知語を示す。
<例1>
入力>>かぶけんたいしゃくとりひき<<
4565 < 株券 たい 癪 取引 >
4640 < 株券 退社 く 取引 >
4673 < 株券 退社 九 取引 >
4732 < 株券 体 癪 取引 >
4867 < 株券 対 癪 取引 >
4937 < 株券 タイ 癪 取引 >
<例2>
入力>>とりぷるえーのめいがら<<
2247 < トリプルA の 銘柄 >
3239 < トリプル ええ の 銘柄 >
3514 < トリプルA 野 銘柄 >
3792 < トリプル A の 銘柄 >
3921 < トリプル エー の 銘柄 >
3942 < トリプル D_エー の 銘柄 >
4188 < トリプル ええ 野 銘柄 >
<例3>
入力>>かぶけんたいしゃくとりひき<<
4165 < 株券 <たいしゃく>u 取引 >
4565 < 株券 たい 癪 取引 >
4640 < 株 <けんたいしゃく>u 取引 >
4673 < 株券 退社 九 取引 >
4732 < 株券 体 癪 取引 >
4758 < <かぶけんたいしゃく>u 取引 >
以上のように、特定の実施例により、本発明の技法を説明してきたが、本発明の技術的範囲は、この特定の実施例に限定されず、さまざまな変形例が可能である。例えば、図1のようなネットワークで接続して構成ではなく、スタンドアロンの構成でよく、また、音声蓄積サーバは、音声認識サーバは、同一のサーバによって構成してもよい。
ハードウェア構成の全体の概要図である。 図1の構成で使用されるコンピュータのより詳細な構成を示す図である。 音声認識システムの機能を示すブロック図である。 音声認識用言語モデルを使用して読みを変換する処理のフローチャートの図である。 音声認識用言語モデルを使用して読みを変換する処理のフローチャートの図である。 読みと変換結果を入力・表示するためのウインドウを示す図である。

Claims (9)

  1. 音声ファイルと、該音声ファイルを音声認識した結果の索引テキストとが関連付けられて保存されているデータを、コンピュータの処理によって検索するためのシステムであって、
    前記コンピュータの処理によって、ユーザからの読みの入力を受け入れる手段と、
    前記コンピュータの処理によって、前記読みを、発音記号列に変換する手段と、
    前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換する手段と、
    前記コンピュータの処理によって、前記キーワードを用いて、前記索引テキストを検索する手段を有する、
    音声ファイルの検索システム。
  2. 前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正する手段と、
    前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定する手段と、
    前記未知語の存在を前記ユーザに報知する手段とをさらに有する、
    請求項1に記載の音声ファイルの検索システム。
  3. 音声ファイルを検索するために、該音声ファイルを音声認識して索引テキストとを作成するための音声認識辞書を、コンピュータの処理によって更新するためのシステムであって、
    前記コンピュータの処理によって、ユーザからの読みの入力を受け入れる手段と、
    前記コンピュータの処理によって、前記読みを、発音記号列に変換する手段と、
    前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換する手段と、
    前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正する手段と、
    前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定する手段と、
    前記コンピュータの処理によって、前記未知語に対応するユーザ訂正語を、前記音声認識辞書に登録する手段を有する、
    音声認識辞書の更新システム。
  4. 音声ファイルと、該音声ファイルを音声認識した結果の索引テキストとが関連付けられて保存されているデータを、コンピュータの処理によって検索するための方法であって、
    前記コンピュータの処理によって、ユーザからの読みの入力を受け入れるステップと、
    前記コンピュータの処理によって、前記読みを、発音記号列に変換するステップと、
    前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換するステップと、
    前記コンピュータの処理によって、前記キーワードを用いて、前記索引テキストを検索するステップを有する、
    音声ファイルの検索方法。
  5. 前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正するステップと、
    前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定するステップと、
    前記未知語の存在を前記ユーザに報知するステップとをさらに有する、
    請求項4に記載の音声ファイルの検索方法。
  6. 音声ファイルを検索するために、該音声ファイルを音声認識して索引テキストとを作成するための音声認識辞書を、コンピュータの処理によって更新するための方法であって、
    前記コンピュータの処理によって、ユーザからの読みの入力を受け入れるステップと、
    前記コンピュータの処理によって、前記読みを、発音記号列に変換するステップと、
    前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換するステップと、
    前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正するステップと、
    前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定するステップと、
    前記コンピュータの処理によって、前記未知語に対応するユーザ訂正語を、前記音声認識辞書に登録するステップを有する、
    音声認識辞書の更新方法。
  7. 音声ファイルと、該音声ファイルを音声認識した結果の索引テキストとが関連付けられて保存されているデータを、コンピュータの処理によって検索するためのプログラムであって、
    前記コンピュータをして、
    ユーザからの読みの入力を受け入れるステップと、
    前記読みを、発音記号列に変換するステップと、
    前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換するステップと、
    前記キーワードを用いて、前記索引テキストを検索するステップを実行させる、
    音声ファイルの検索プログラム。
  8. 前記コンピュータをして、
    前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正するステップと、
    前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定するステップと、
    前記未知語の存在を前記ユーザに報知するステップとをさらに実行させる、
    請求項7に記載の音声ファイルの検索プログラム。
  9. 音声ファイルを検索するために、該音声ファイルを音声認識して索引テキストとを作成するための音声認識辞書を、コンピュータの処理によって更新するためのプログラムであって、
    前記コンピュータをして、
    前記コンピュータの処理によって、ユーザからの読みの入力を受け入れるステップと、
    前記コンピュータの処理によって、前記読みを、発音記号列に変換するステップと、
    前記コンピュータの処理によって、前記発音記号列を、前記音声ファイルの音声認識に使用された言語モデルと実質的に同一の言語モデルを用いてキーワードに変換するステップと、
    前記コンピュータの処理によって、ユーザの操作に従って前記キーワードを訂正するステップと、
    前記コンピュータの処理によって、前記キーワードの訂正箇所に基づき、未知語を同定するステップと、
    前記コンピュータの処理によって、前記未知語に対応するユーザ訂正語を、前記音声認識辞書に登録するステップを実行させる、
    音声認識辞書の更新プログラム。
JP2008170021A 2008-06-30 2008-06-30 音声ファイルの検索システム、方法及びプログラム Expired - Fee Related JP5068225B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008170021A JP5068225B2 (ja) 2008-06-30 2008-06-30 音声ファイルの検索システム、方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008170021A JP5068225B2 (ja) 2008-06-30 2008-06-30 音声ファイルの検索システム、方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2010009446A JP2010009446A (ja) 2010-01-14
JP5068225B2 true JP5068225B2 (ja) 2012-11-07

Family

ID=41589827

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008170021A Expired - Fee Related JP5068225B2 (ja) 2008-06-30 2008-06-30 音声ファイルの検索システム、方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5068225B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103680498A (zh) 2012-09-26 2014-03-26 华为技术有限公司 一种语音识别方法和设备
KR102298457B1 (ko) 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
JP6580882B2 (ja) 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
KR102075796B1 (ko) * 2017-11-14 2020-03-02 주식회사 엘솔루 자동 음성인식 장치 및 방법
KR20200056712A (ko) 2018-11-15 2020-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
CN111161738A (zh) * 2019-12-27 2020-05-15 苏州欧孚网络科技股份有限公司 一种语音文件检索系统及其检索方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152756A (ja) * 1993-11-30 1995-06-16 Canon Inc 文書処理装置
JP3825526B2 (ja) * 1997-03-31 2006-09-27 株式会社東芝 音声認識装置
JPH11242496A (ja) * 1998-02-26 1999-09-07 Kobe Steel Ltd 情報再生装置
JP3976959B2 (ja) * 1999-09-24 2007-09-19 三菱電機株式会社 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP4259100B2 (ja) * 2002-11-26 2009-04-30 パナソニック株式会社 音声認識用未知発話検出装置及び音声認識装置
JP4080965B2 (ja) * 2003-07-15 2008-04-23 株式会社東芝 情報提示装置及び情報提示方法

Also Published As

Publication number Publication date
JP2010009446A (ja) 2010-01-14

Similar Documents

Publication Publication Date Title
JP5459214B2 (ja) 言語モデル作成装置、言語モデル作成方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
KR102390940B1 (ko) 음성 인식을 위한 컨텍스트 바이어싱
WO2017114172A1 (zh) 一种发音词典的构建方法及装置
US20170287474A1 (en) Improving Automatic Speech Recognition of Multilingual Named Entities
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
WO2017061027A1 (ja) 言語モデル生成装置、言語モデル生成方法とそのプログラム、音声認識装置、および音声認識方法とそのプログラム
US20140372119A1 (en) Compounded Text Segmentation
TW201517018A (zh) 語音辨識方法及其電子裝置
JP5068225B2 (ja) 音声ファイルの検索システム、方法及びプログラム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP2017009842A (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP2015049254A (ja) 音声データ認識システム及び音声データ認識方法
CN112346696B (zh) 虚拟助理的语音比较
JPWO2011033834A1 (ja) 音声翻訳システム、音声翻訳方法および記録媒体
US20130006604A1 (en) Cross-lingual audio search
Alrumiah et al. Intelligent Quran Recitation Recognition and Verification: Research Trends and Open Issues
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP6347939B2 (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP4839291B2 (ja) 音声認識装置およびコンピュータプログラム
Alshammri IoT‐Based Voice‐Controlled Smart Homes with Source Separation Based on Deep Learning
TW201828281A (zh) 發音詞典的構建方法及裝置
JP2003162524A (ja) 言語処理装置
Tetariy et al. An efficient lattice-based phonetic search method for accelerating keyword spotting in large speech databases
Rani et al. Error analysis to improve the speech recognition accuracy on Telugu language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110527

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120726

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120814

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees