JP5753769B2 - 音声データ検索システムおよびそのためのプログラム - Google Patents

音声データ検索システムおよびそのためのプログラム Download PDF

Info

Publication number
JP5753769B2
JP5753769B2 JP2011252425A JP2011252425A JP5753769B2 JP 5753769 B2 JP5753769 B2 JP 5753769B2 JP 2011252425 A JP2011252425 A JP 2011252425A JP 2011252425 A JP2011252425 A JP 2011252425A JP 5753769 B2 JP5753769 B2 JP 5753769B2
Authority
JP
Japan
Prior art keywords
keyword
unit
phoneme
voice data
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011252425A
Other languages
English (en)
Other versions
JP2013109061A (ja
Inventor
直之 神田
直之 神田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2011252425A priority Critical patent/JP5753769B2/ja
Priority to US13/673,444 priority patent/US20130132090A1/en
Priority to CN201210465128.6A priority patent/CN103123644B/zh
Priority to EP12193055.6A priority patent/EP2595144B1/en
Publication of JP2013109061A publication Critical patent/JP2013109061A/ja
Application granted granted Critical
Publication of JP5753769B2 publication Critical patent/JP5753769B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声データを検索するシステムに関するものである。
近年のストレージデバイスの大容量化に伴い、大量の音声データが蓄積されるようになってきている。従来の多くの音声データベースでは、音声データを管理するために音声が録音された時刻の情報を付与し、その情報を元に所望の音声データを検索することが行われてきた。しかしながら、時刻情報に基づく検索では、所望の音声が発話された時刻を予め知っている必要があり、特定のキーワードが発話中に含まれる音声を検索するといった用途には不向きであった。特定のキーワードが発話中に含まれる音声を検索する場合、音声を始めから終わりまで聴取する必要があった。
そこで、音声データベース中の特定のキーワードが発話された時刻を自動的に検出する技術が開発されている。代表的な手法のひとつであるサブワード検索法では、まずサブワード認識処理によって、音声データをサブワード列へと変換しておく。ここでサブワードとは音素や音節など、単語よりも細かい単位を指す名称である。キーワードが入力されると、当該キーワードのサブワード表現と音声データのサブワード認識結果を比較し、サブワードの一致度が高い個所を検出することにより、音声データ中で当該キーワードが発話されている時刻を検出する(特許文献1、非特許文献1)。また、非特許文献2で示されているワードスポッティング法では、音素単位の音響モデルを組み合わせることで当該キーワードの音響モデルを生成し、当該キーワード音響モデルと音声データとの照合を行うことで、音声データ中で当該キーワードが発話された時刻の検出を行う。
しかしながら、いずれの技術も発話の変動(なまりや話者性の違いなど)や雑音の影響を受け、検索結果には誤りが含まれ、実際には当該キーワードが発話されていない時刻が検索結果に現れることがある。そのため、ユーザは誤った検索結果を取り除くために、検索によって得られたキーワードの発話時刻から音声データを再生し、聴取により当該キーワードが本当に発話されているか否かを判断する必要がある。
上記のような正解/不正解判定を補助するための技術も提案されている。特許文献2には、聴取により当該キーワードが本当に発話されているか否かを判断するために、当該キーワードの検出時刻を強調して再生する技術が開示されている。
特開2002−221984号公報 特開2005−38014号公報
岩田耕平 他「語彙フリー音声文書検索手法における新しいサブワードモデルとサブワード音響距離の有効性の検証」情報処理学会論文誌,Vol.48,No.5,2007 河原達也,宗続敏彦,堂下修司"ヒューリスティックな言語モデルを用いた会話音声中の単語スポッティング" 信学論.D−II, 情報・システム, II−情報処理,vol.78,no.7,pp.1013−1020,1995. 鹿野清宏 他「IT Text 音声認識システム」オーム社(2001)
特許文献2には、聴取により当該キーワードが本当に発話されているか否かを判断するために、当該キーワードの検出時刻を強調して再生する技術が開示されている。
しかし、ユーザが検索対象としている音声データの言語を十分には理解できない状況では、しばしば上記のような正解/不正解の判定を聴取によって行うことに困難を伴うという問題がある。例えば、ユーザが「play」というキーワードで検索をした結果、実際には「pray」と発話された時刻が検出されることがある。この場合、英語を十分に解さない日本人のユーザはそれを「play」と言っていると判断してしまう可能性がある。特許文献2で提案されているような当該キーワードの検出位置を強調再生する技術では、上記の問題を解決することはできない。
本発明は、このような課題を解決し、音声データ検索システムにおいて、検索結果の正解/不正解の判定を容易に行うことができるようにすることを目的とする。
本発明は、上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。
本発明の音声データ検索システムの一例を挙げるならば、キーワードを入力する入力装置と、入力された前記キーワードを音素表記へ変換する音素変換部と、音素表記のキーワードを元に音声データ中で当該キーワードが発話された個所を検索する音声データ探索部と、音素表記のキーワードを元にユーザが聴取混同する可能性のある当該キーワードとは別の対照キーワードの集合を生成する対照キーワード生成部と、ユーザが入力した前記キーワードと、前記対照キーワード生成部で生成した前記対照キーワードのいずれか一方もしくは両方を音声合成する音声合成部と、前記音声データ探索部からの検索結果および前記対照キーワード生成部からの前記対照キーワードをユーザへ提示する検索結果提示部を備え、前記検索結果提示部は、前記音声合成部からの合成音声をユーザへ提示する音声データ検索システムである。
また、本発明のプログラムの一例を挙げるならば、コンピュータを、入力されたキーワードを音素表記へ変換する音素変換部と、音素表記のキーワードを元に音声データ中で当該キーワードが発話された個所を検索する音声データ探索部と、音素表記のキーワードを元にユーザが聴取混同する可能性のある当該キーワードとは別の対照キーワードの集合を生成する対照キーワード生成部と、入力された前記キーワードと、前記対照キーワード生成部で生成した前記対照キーワードのいずれか一方もしくは両方を音声合成する音声合成部と、前記音声データ探索部からの検索結果および前記対照キーワード生成部からの前記対照キーワードをユーザへ提示する検索結果提示部とを備え、前記検索結果提示部は、前記音声合成部からの合成音声をユーザへ提示する音声データ検索システムとして機能させるためのプログラムである。
本発明によれば、音声データ検索システムにおいて、ユーザが入力したキーワードを元に、ユーザが聴取混同する可能性のある対照キーワード集合を生成しユーザに提示することで、検索結果の正解/不正解の判定を容易に行うことができるようにすることができる。
本発明を適用する計算機システムの構成を示すブロック図である。 本発明の構成要素を処理の流れに従って配置した図である。 本発明の処理の流れを示すフローチャートである。 対照キーワード候補の生成の処理の流れを示すフローチャートである。 単語辞書の一例を示す図である。 音素混同行列の一例を示す図である。 対照キーワード候補のチェックの処理の流れを示すフローチャートである。 ユーザへ情報を提示する画面の一例を示す図である。 音素混同行列の他の例を示す図である。 編集距離の算出過程の一例を示す図である。 編集距離の算出過程の他の例を示す図である。 ユーザが複数の言語を理解できる場合の、音素混同行列の一例を示す図である。 編集距離計算の疑似コードを示す図である。
以下、本発明の実施の形態を、添付図面に基づいて説明する。
図1は、第1の実施形態を示し、本発明を適用する計算機システムの構成を示すブロック図である。また、図2は、図1の構成要素を処理の流れに従って配置した図である。本実施形態の計算機システムは、計算機101と、表示装置111、入力装置112および音声出力装置113からなる。計算機101の内部には、音声データ蓄積装置102、音素混同行列103、単語辞書104を持ち、また、音声データ探索部105、音素変換部106、対照キーワード生成部107、対照キーワードチェック部108、音声合成部109、検索結果提示部110、言語情報入力部114および音素混同行列生成部115を持つ。
音声データ検索システムは、計算機(コンピュータ)において、CPUが所定のプログラムをメモリ上にロードし、また、CPUがメモリ上にロードした所定のプラグラムを実行することにより実現できる。この所定のプログラムは、図示していないが、読み取り装置を介して当該プログラムが記憶された記憶媒体から、または、通信装置を介してネットワークから入力して、直接メモリ上にロードするか、もしくは、一旦、外部記憶装置に格納してから、メモリ上にロードすれば良い。
本発明におけるプログラムの発明は、このようにコンピュータに組み込まれ、コンピュータを音声データ検索システムとして動作させるプログラムである。本発明のプログラムをコンピュータに組み込むことにより、図1や図2のブロック図に示される音声データ検索システムが構成される。
以下、各構成要素の処理の流れについて記述する。図3に、処理のフローチャートを示す。
[キーワード入力および音素表現への変換]
ユーザが入力装置112からテキストでキーワードを入力すると(処理301)、まず音素変換部106が当該キーワードを音素表現へと変換する(処理302)。例えば、ユーザが入力として「play」というキーワードを入力した場合、これを「p l e I」と変換する。この変換は形態素解析処理として知られており、当業者に周知であるために説明を省略する。
また入力装置としてマイクロフォンを用い、ユーザがマイクロフォンに対して音声でキーワードを発話することによって、キーワードの入力を行うことも可能である。この場合、音素変換部として音声認識技術を利用することで、当該音声波形を音素表現へと変換することが可能である。音声認識技術による音素表現への変換技術の詳細は非特許文献3などに記載されており、当業者に周知の技術であるため、詳細の説明は省略する。
[音声データ探索]
続いて、音声データ探索部105が、音声データ蓄積装置102に蓄積されている音声データ中で、当該キーワードが発話された時刻を検出する(処理303)。この処理には、例えば非特許文献2で提示されているワードスポッティング処理を用いることができる。もしくは、特許文献1や非特許文献1など、予め音声データ蓄積装置を前処理しておく方法を利用することも可能である。事業者はこれらのうちいずれかの手段を選択すればよい。
[対照キーワード候補の生成]
続いて、対照キーワード生成部107が、ユーザが聴取混同する可能性のある対照キーワード集合を生成する(処理304)。以下の説明では、キーワードは英語で入力されており、一方でユーザは日本語を母語としているものとする。ただし、キーワードの言語及びユーザの母語は、英語と日本語に限定されず、いかなる言語の組み合わせでも実施可能である。
図4に、処理の流れを示す。まず対照キーワード集合Cを空集合として初期化する(処理401)。続いて英語の単語辞書に登録された全ての単語Wについて、その音素表記とユーザが入力したキーワードKの音素表記との間の編集距離Ed(K,W)を計算する(処理403)。当該単語Wに対する編集距離がしきい値以下であれば、当該単語を対照キーワード集合Cに追加する(処理404)。最後に、対照キーワード集合Cを出力する。
図5に、単語辞書の例を示す。図5に示すように、単語辞書は、単語501とその音素表現502の組を多数記載したものである。
図6に、日本語話者用の音素混同行列の例を示す。音素混同行列では、縦の列に示されている音素が横の行に示されている音素と混同されやすい場合には0に近い値、混同されにくい場合には1に近い値が、0から1の間の数値で記載されたものである。ただし、SPは「無音」を表す特殊記号である。例えば、音素bは音素aと混同されにくいために音素混同行列では1が割り当てられている。対して、音素lと音素rは日本語を母語とするユーザにとっては混同しやすい音素であるため、音素混同行列では0という値が割り当てられている。同一の音素の場合には常に0が割り当てられる。音素混同行列は、ユーザの母語言語ごとに1つ用意される。以下、音素混同行列において音素Xの行、音素Yの列に割り当てられた値をMatrix(X,Y)と表す。
編集距離とは、ある文字列Aと文字列Bの間の距離尺度を定義するものであり、文字列Aに置換、挿入、削除の各操作を施して文字列Bに変換するための最小操作コストとして定義される。例えば図10のように文字列Aがabcdeであり、文字列Bがacfegであったときは、まず文字列Aの2文字目のbを削除し、文字列Aの4文字目のdをfに置換し、文字列Aの最後尾にgを追加することで文字列Bへ変換できる。ここで、置換、挿入、削除にかかるコストがそれぞれ定義されており、操作コストの和が最小となるような操作を選んだ時の、操作コストの和を編集距離Ed(A,B)とする。
本実施例では、ある音素Xの挿入にかかるコストはMatrix(SP,X)、ある音素Xの削除にかかるコストはMatrix(X,SP)、音素Xを音素Yに置換するコストはMatrix(X,Y)とする。これにより、音素混同行列を反映した編集距離を計算することができる。例えばキーワード「play」の音素表現「p l e I」と、単語「pray」の音素表現「p r e I」の編集距離を図6の音素混同行列に従って計算することを考える。「p l e I」の2文字目のlをrへ置換することで「p r e I」へと変換することができる。ここで図6の音素混同行列ではlとrに対して0という値が割り当てられているために、lをrへ置換するコストMatrix(l,r)は0であることから、「p l e I」はコスト0で「p r e I」へと変換でき、従って編集距離Ed(play,pray)=0と計算される。
なお、編集距離の効率的な計算方法である動的計画法は当業者に周知であるため、ここでは疑似コードのみを示す。図13に、疑似コードを示した。ここで音素列Aのi文字目の音素はA(i)と表しており、音素列Aと音素列Bの長さはそれぞれNとMとしている。
また、上記とは別の編集距離の定義として、文字列Aに置換、挿入、削除の各操作を施して、操作後の文字列が文字列Bに含まれるようにするための最小操作コストとして定義することもできる。例えば図11のように文字列Aがabcde、文字列Bがxyzacfegklmであった場合には、まず文字列Aの2文字目のbを削除し、続いて3文字目の文字dをfと置換することで、操作後の文字列acfeは文字列Bに含まれるようなる。このときの操作コストの和を編集距離Ed (A,B)とする。
対照キーワード生成においては、編集距離の定義として上記の2種類のいずれを用いてもよい。また、上記で示した処理以外にも、文字列間の距離を計測する方法であれば、いずれの方法でも利用可能である。
さらに図4の処理403,404において単語Wだけでなく、単語列W1…WNを用いてもよい。
さらに、処理403において編集距離Ed(K,W1…WN)だけではなく、単語列W…WNが生成される確率P(W…WN)も合わせて求め、処理404において編集距離がしきい値以下で、かつP(W…WN)がしきい値以上であればC←C∪{W1…WN}とする実装も可能である。この場合には、対照キーワード集合には単語列も含まれる。なお、P(W…WN)の算出方法としては、例えば言語処理の分野でよく知られたN−gramモデルを利用することができる。N−gramモデルの詳細については当業者に周知であるため、ここでは省略する。
また上記の外に、Ed(K,W1…WN)とP(W…WN)を組み合わせた任意の尺度を利用することもできる。例えば Ed(K,W1…WN)/ P(W…WN) や P(W…WN)*(length(K)−Ed(K,W1…WN))/ length(K) といった尺度を処理404において利用してもよい。ただし、length(K)はキーワードKの音素表現に含まれる音素数である。
[音素混同行列の生成]
対照キーワード生成で使用する音素混同行列は、ユーザの母語もしくは使用可能言語によって切り替えることができる。この場合、ユーザは言語情報入力部114を通してシステムにユーザの母語もしくは使用可能言語に関する情報を入力する。ユーザからの入力を受け取ったシステムは音素混同行列生成部115がユーザの母語用の音素混同行列を出力する。例えば図6は、日本語話者用であるが、中国語を母語とするユーザに対しては、図9で示されたような音素混同行列を用いることが可能である。例えば図9では図6と違い、音素lと音素rの交差する点は1であり、この2つの音素は中国語を母語とするユーザにとっては混同しにくいものであるという定義がなされている。
音素混同行列生成部は、ユーザの母語に限定せず、ユーザが理解できる言語の情報によって、音素混同行列を切り替えてもよい。
さらにユーザが複数の言語を理解できる場合に、音素混同行列生成部115は、それらの言語情報を組み合わせた音素混同行列を生成することも可能である。実施例のひとつとして、α語とβ語の両方が理解できるユーザに対しては、α語ユーザ用の音素混同行列のi行j列要素とβ語ユーザ用の音素混同行列のi行j列要素の大きい方がi行j列要素となるような混同行列を生成することができる。3か国語以上の言語を理解できる場合にも、各言語の音素混同行列の中で各行列要素ごとに最も大きいものを選べばよい。
例えば日本語と中国語が理解できるユーザに対しては図12の音素混同行列が生成される。図12の音素混同行列の各要素は、日本語話者用音素混同行列(図6)と中国語話者用音素混同行列(図9)の各行列要素の大きい方を代入したものである。
また、音素混同行列をユーザが直接操作し、行列の値を調整することも可能である。
なお、音素混同行列の生成は、対照キーワード生成部が動作する前の任意のタイミングで行うことができる。
[対照キーワード候補のチェック]
対照キーワード生成部107によって生成された対照キーワード候補に対して、対照キーワードチェック部108が動作し、当該対照キーワードをユーザへ提示するか否かの選別を行う。これにより不要な対照キーワード候補を除去する。
この処理の流れを図7に示す。
(1)まず対照キーワード生成部107によって生成された全ての対照キーワード候補W(i=1,…,N)についてflag(W)=0とする(処理701)。
(2)続いて、音声データ探索部から得られたキーワードの発話時刻候補全てに対して、以下の(i)〜(iii)の処理を行う。
(i)キーワードの発話時刻の始端と終端を含む音声Xを切り出す(処理703)。
(ii)全ての対照キーワード候補W(i=1,…,N)について、当該音声に対するワードスポッティング処理を行う(処理705)。
(iii)ワードスポッティングの結果得られたスコアP(*W*|X)がしきい値を超えた単語Wiに対してflag(W)=1とする(処理706)。
(3)flag(W)が0であるキーワードを対照キーワード候補から取り除く(処理707)。
なお、ワードスポッティング処理では、音声X内でキーワードWが発話されている確率P(*key*|X)を数1式に従って算出する。
Figure 0005753769
ここで、h0は任意の音素集合のうちキーワードの音素表現を含む要素であり、h1は任意の音素列集合の要素である。詳細は非特許文献2などに示されており、当業者には周知であるため、ここではこれ以上の説明は省略する。
また、対照キーワードのチェックをする際に算出されるワードスポッティングの値P(*W*|X)がしきい値を超えた場合には、当該検索結果を検索結果から取り除くことも可能である。
なお、対照キーワード候補のチェック処理は省略してもよい。
[音声合成処理]
対照キーワード候補およびユーザが入力したキーワードの両方を音声合成部109によって音声波形へと変換する。ここでテキストを音声波形へ変換する音声合成技術については、当業者には周知であるため詳細は省略する。
[検索結果提示]
最後に、検索結果提示部110が表示装置111および音声出力装置113を通して、ユーザへ検索結果および対照キーワードについての情報を提示する。この際に表示装置111へ表示する画面の例を、図8に示す。
ユーザは検索窓801に検索キーワードを入力し、ボタン802を押すことで、音声データ蓄積装置102に蓄積された音声データ中でキーワードが発話されている個所を検索することができる。図8の例では、ユーザは「play」というキーワードが音声データ蓄積装置102に蓄積された音声データ中で発話されている個所を検索している。
検索結果は、ユーザが入力したキーワードが発話されている音声ファイル名805と当該キーワードが当該音声ファイル内で発話されている時刻806であり、「キーワードから再生」807という個所をクリックすることで当該ファイルの当該時刻から音声出力装置113を通して音声が再生される。また「ファイル冒頭から再生」808という個所をクリックすることで、当該ファイルの冒頭から音声出力装置113を通して音声が再生される。
また、「キーワード音声合成を聞く」803という個所をクリックすることにより、当該キーワードの音声合成が音声出力装置113を通して再生される。これによりユーザは当該キーワードの正しい発音を聞くことができ、当該検索結果が正しいかどうかの参考とすることができる。
また、図8の804には対照キーワードの候補としてprayとclayが表示されており、「音声合成を聞く」809という個所をクリックすると、その音声合成が音声出力装置113を通して再生される。これらによってユーザは検索結果として「pray」や「clay」というキーワードが発話された個所が誤検出されている可能性に気付き、当該対照キーワードの合成音声を聞くことにより、ユーザは当該検索結果が正しいかどうかを判定する際の参考とすることができる。
101 計算機
102 音声データ蓄積装置
103 音素混同行列
104 単語辞書
105 音声データ探索部
106 音素変換部
107 対照キーワード生成部
108 対照キーワードチェック部
109 音声合成部
110 検索結果提示部
111 表示装置
112 入力装置
113 音声出力装置
114 言語情報入力部
115 音素混同行列生成部

Claims (12)

  1. キーワードを入力する入力装置と、
    入力された前記キーワードを音素表記へ変換する音素変換部と、
    音素表記のキーワードを元に音声データ中で当該キーワードが発話された個所を検索する音声データ探索部と、
    音素表記のキーワードを元にユーザが聴取混同する可能性のある当該キーワードとは別の対照キーワードの集合を生成する対照キーワード生成部と、
    ユーザが入力した前記キーワードと、前記対照キーワード生成部で生成した前記対照キーワードのいずれか一方もしくは両方を音声合成する音声合成部と、
    前記音声データ探索部からの検索結果および前記対照キーワード生成部からの前記対照キーワードをユーザへ提示する検索結果提示部を備え、
    前記検索結果提示部は、前記音声合成部からの合成音声をユーザへ提示する音声データ検索システム。
  2. 請求項1に記載の音声データ検索システムにおいて、
    ユーザごとの音素混同行列を備え、
    前記対照キーワード生成部は、前記音素混同行列に基づいて対照キーワード生成を行うことを特徴とする音声データ検索システム。
  3. 請求項2に記載の音声データ検索システムにおいて、
    ユーザが理解可能な言語についての情報を入力する言語情報入力部と、
    言語情報入力部から得られた情報に基づいて前記音素混同行列を生成する音素混同行列生成部を備えたことを特徴とする音声データ検索システム。
  4. 請求項1に記載の音声データ検索システムにおいて、
    前記対照キーワード生成部は、前記音素表記されたキーワードと単語辞書に登録された単語の音素表記との間の編集距離を計算し、編集距離がしきい値以下の単語を対照キーワードとすることを特徴とする音声データ検索システム。
  5. 請求項1に記載の音声データ検索システムにおいて、
    前記対照キーワード生成部で生成した対照キーワード候補と前記音声データ探索部の検索結果を比較して、不要な対照キーワード候補を除去する対照キーワードチェック部を備えたことを特徴とする音声データ検索システム。
  6. 請求項に記載の音声データ検索システムにおいて、
    前記対照キーワードチェック部は、前記対照キーワード候補と前記音声データ探索部の検索結果を比較して、不要な音声データ検索結果を除去することを特徴とする音声データ検索システム。
  7. コンピュータを、
    入力されたキーワードを音素表記へ変換する音素変換部と、
    音素表記のキーワードを元に音声データ中で当該キーワードが発話された個所を検索する音声データ探索部と、
    音素表記のキーワードを元にユーザが聴取混同する可能性のある当該キーワードとは別の対照キーワードの集合を生成する対照キーワード生成部と、
    入力された前記キーワードと、前記対照キーワード生成部で生成した前記対照キーワードのいずれか一方もしくは両方を音声合成する音声合成部と、
    前記音声データ探索部からの検索結果および前記対照キーワード生成部からの前記対照キーワードをユーザへ提示する検索結果提示部とを備え、
    前記検索結果提示部は、前記音声合成部からの合成音声をユーザへ提示する音声データ検索システムとして機能させるためのプログラム。
  8. 請求項に記載のプログラムにおいて、
    ユーザごとの音素混同行列を備え、前記対照キーワード生成部は、前記音素混同行列に基づいて対照キーワード生成を行うように機能させることを特徴とする、コンピュータを音声データ検索システムとして機能させるためのプログラム。
  9. 請求項に記載のプログラムにおいて、更に、
    ユーザが理解可能な言語についての情報を入力する言語情報入力部と、言語情報入力部から得られた情報に基づいて前記音素混同行列を生成する音素混同行列生成部として機能させることを特徴とする、コンピュータを音声データ検索システムとして機能させるためのプログラム。
  10. 請求項に記載のプログラムにおいて、
    前記対照キーワード生成部は、前記音素表記されたキーワードと単語辞書に登録された単語の音素表記との間の編集距離を計算し、編集距離がしきい値以下の単語を対照キーワードとするように機能させることを特徴とする、コンピュータを音声データ検索システムとして機能させるためのプログラム。
  11. 請求項に記載のプログラムにおいて、更に、
    前記対照キーワード生成部で生成した対照キーワード候補と前記音声データ探索部の検索結果を比較して、不要な対照キーワード候補を除去する対照キーワードチェック部として機能させることを特徴とする、コンピュータを音声データ検索システムとして機能させるためのプログラム。
  12. 請求項11に記載のプログラムにおいて、
    前記対照キーワードチェック部は、前記対照キーワード候補と前記音声データ探索部の検索結果を比較して、不要な音声データ検索結果を除去するように機能させることを特徴とする、コンピュータを音声データ検索システムとして機能させるためのプログラム。
JP2011252425A 2011-11-18 2011-11-18 音声データ検索システムおよびそのためのプログラム Expired - Fee Related JP5753769B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2011252425A JP5753769B2 (ja) 2011-11-18 2011-11-18 音声データ検索システムおよびそのためのプログラム
US13/673,444 US20130132090A1 (en) 2011-11-18 2012-11-09 Voice Data Retrieval System and Program Product Therefor
CN201210465128.6A CN103123644B (zh) 2011-11-18 2012-11-16 声音数据检索系统及用于该系统的程序
EP12193055.6A EP2595144B1 (en) 2011-11-18 2012-11-16 Voice data retrieval system and program product therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011252425A JP5753769B2 (ja) 2011-11-18 2011-11-18 音声データ検索システムおよびそのためのプログラム

Publications (2)

Publication Number Publication Date
JP2013109061A JP2013109061A (ja) 2013-06-06
JP5753769B2 true JP5753769B2 (ja) 2015-07-22

Family

ID=47221179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011252425A Expired - Fee Related JP5753769B2 (ja) 2011-11-18 2011-11-18 音声データ検索システムおよびそのためのプログラム

Country Status (4)

Country Link
US (1) US20130132090A1 (ja)
EP (1) EP2595144B1 (ja)
JP (1) JP5753769B2 (ja)
CN (1) CN103123644B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9317499B2 (en) * 2013-04-11 2016-04-19 International Business Machines Corporation Optimizing generation of a regular expression
JP5888356B2 (ja) * 2014-03-05 2016-03-22 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
KR102371188B1 (ko) * 2015-06-30 2022-03-04 삼성전자주식회사 음성 인식 장치 및 방법과 전자 장치
JP6569343B2 (ja) * 2015-07-10 2019-09-04 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム
US10504511B2 (en) * 2017-07-24 2019-12-10 Midea Group Co., Ltd. Customizable wake-up voice commands
CN109994106B (zh) * 2017-12-29 2023-06-23 阿里巴巴集团控股有限公司 一种语音处理方法及设备
CN111275043B (zh) * 2020-01-22 2021-08-20 西北师范大学 一种基于pcnn处理的纸质简谱电子化播放装置

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0736481A (ja) * 1993-07-19 1995-02-07 Osaka Gas Co Ltd 補完音声認識装置
DE69423838T2 (de) * 1993-09-23 2000-08-03 Xerox Corp Semantische Gleichereignisfilterung für Spracherkennung und Signalübersetzungsanwendungen
US6601027B1 (en) * 1995-11-13 2003-07-29 Scansoft, Inc. Position manipulation in speech recognition
WO2002001312A2 (en) * 2000-06-28 2002-01-03 Inter China Network Software Company Limited Method and system of intelligent information processing in a network
WO2002021510A1 (en) * 2000-09-08 2002-03-14 Koninklijke Philips Electronics N.V. Speech recognition method with a replace command
JP3686934B2 (ja) 2001-01-25 2005-08-24 独立行政法人産業技術総合研究所 異種環境音声データの音声検索方法及び装置
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
JP4080965B2 (ja) 2003-07-15 2008-04-23 株式会社東芝 情報提示装置及び情報提示方法
JP2005257954A (ja) * 2004-03-10 2005-09-22 Nec Corp 音声検索装置、音声検索方法および音声検索プログラム
JP2006039954A (ja) * 2004-07-27 2006-02-09 Denso Corp データベース検索装置、プログラム及びナビゲーション装置
KR100815115B1 (ko) * 2006-03-31 2008-03-20 광주과학기술원 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
WO2009006433A1 (en) * 2007-06-29 2009-01-08 Alelo, Inc. Interactive language pronunciation teaching
US9405823B2 (en) * 2007-07-23 2016-08-02 Nuance Communications, Inc. Spoken document retrieval using multiple speech transcription indices
EP2019383A1 (en) * 2007-07-25 2009-01-28 Dybuster AG Device and method for computer-assisted learning
JP4887264B2 (ja) * 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
US7472061B1 (en) * 2008-03-31 2008-12-30 International Business Machines Corporation Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations
US20100153366A1 (en) * 2008-12-15 2010-06-17 Motorola, Inc. Assigning an indexing weight to a search term
JP5326169B2 (ja) * 2009-05-13 2013-10-30 株式会社日立製作所 音声データ検索システム及び音声データ検索方法
US8321218B2 (en) * 2009-06-19 2012-11-27 L.N.T.S. Linguistech Solutions Ltd Searching in audio speech
CN102346731B (zh) * 2010-08-02 2014-09-03 联想(北京)有限公司 一种文件处理方法及文件处理装置
KR101231438B1 (ko) * 2011-05-25 2013-02-07 엔에이치엔(주) 외래어 발음 검색 서비스를 제공하는 검색결과 제공 시스템 및 방법

Also Published As

Publication number Publication date
JP2013109061A (ja) 2013-06-06
US20130132090A1 (en) 2013-05-23
EP2595144B1 (en) 2016-02-03
EP2595144A1 (en) 2013-05-22
CN103123644B (zh) 2016-11-16
CN103123644A (zh) 2013-05-29

Similar Documents

Publication Publication Date Title
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
US11037553B2 (en) Learning-type interactive device
US9640175B2 (en) Pronunciation learning from user correction
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
KR102072730B1 (ko) 핫워드 적합성을 결정하는 방법 및 장치
TWI543150B (zh) 用於提供聲音串流擴充筆記摘錄之方法、電腦可讀取儲存裝置及系統
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
JP7200405B2 (ja) 音声認識のためのコンテキストバイアス
US11024298B2 (en) Methods and apparatus for speech recognition using a garbage model
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP6580882B2 (ja) 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
JP2015520410A (ja) 音声認識に対する負例(アンチワード)に基づく性能改善
JP5326169B2 (ja) 音声データ検索システム及び音声データ検索方法
Moyal et al. Phonetic search methods for large speech databases
JP5160594B2 (ja) 音声認識装置および音声認識方法
JP5326549B2 (ja) 音声認識装置及び方法
Thennattil et al. Phonetic engine for continuous speech in Malayalam
JP2004133003A (ja) 音声認識辞書作成方法及びその装置と音声認識装置
JP5196114B2 (ja) 音声認識装置およびプログラム
JP2015099290A (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
JP2005250071A (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP2011113426A (ja) 辞書作成装置,辞書作成プログラムおよび辞書作成方法
JP2004309928A (ja) 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム
JP3958908B2 (ja) 書き起こしテキスト自動生成装置、音声認識装置および記録媒体
Wang et al. Improving mandarin predictive text input by augmenting pinyin initials with speech and tonal information

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140707

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140908

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150123

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150525

R150 Certificate of patent or registration of utility model

Ref document number: 5753769

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees