JP6400936B2 - 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム - Google Patents

音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム Download PDF

Info

Publication number
JP6400936B2
JP6400936B2 JP2014087325A JP2014087325A JP6400936B2 JP 6400936 B2 JP6400936 B2 JP 6400936B2 JP 2014087325 A JP2014087325 A JP 2014087325A JP 2014087325 A JP2014087325 A JP 2014087325A JP 6400936 B2 JP6400936 B2 JP 6400936B2
Authority
JP
Japan
Prior art keywords
phoneme
string
speech
syllable
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014087325A
Other languages
English (en)
Other versions
JP2015206906A (ja
Inventor
徹 長野
徹 長野
岳人 倉田
岳人 倉田
雅史 西村
雅史 西村
Original Assignee
シノイースト・コンセプト・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by シノイースト・コンセプト・リミテッド filed Critical シノイースト・コンセプト・リミテッド
Priority to JP2014087325A priority Critical patent/JP6400936B2/ja
Priority to US14/692,105 priority patent/US9378736B2/en
Priority to US14/745,912 priority patent/US9373328B2/en
Publication of JP2015206906A publication Critical patent/JP2015206906A/ja
Priority to US15/167,683 priority patent/US9626958B2/en
Priority to US15/167,522 priority patent/US9626957B2/en
Application granted granted Critical
Publication of JP6400936B2 publication Critical patent/JP6400936B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、音声データから音声を検索する技法に関する。特には、本発明は、キーワードで指定した文字列を音声データから検索する技法に関する。
例えばコールセンターにおけるコールモニタリング業務では、大量の音声通話の中から、例えば特定の単語又は不適切な発言内容(以下、単に「キーワード」ともいう)をチェックすることによって、当該コールセンターの品質向上やコミュニケータ(例えば、顧客サービス担当者(Customer Service Representatives;CSR)やテレフォン・セールス・リプレゼンタティブ(Telephone Sales Representatives;TSR))の評価を行っている。
近年、音声認識を用いたコールモニタリングが実用化されており、全通話を対象にモニタリングを行うことができるようになってきた。
音声認識、特に大語彙連続音声認識(LVCSR)は、様々な分野、例えばコールセンターでの書き起こし、裁判所での自動調書作成、大学でのビデオ講義での字幕作成で利用されている。
下記特許文献1は、言語単位に分割された言語モデルと音声の特徴がモデル化された音響モデルを参照し、入力音声の音声認識を行って、音素表記を出力し、前記言語モデルよりも小さい単位で分割されているテキスト検索辞書の分割単位と同じ単位で、照合単位変換手段によって前記音素表記を分割して、その分割結果を用いてテキスト検索手段によってテキスト検索辞書の検索を行うことを記載する(段落0008)。
下記特許文献2は、既知語に対しては、大語彙連続音声認識によって単語列に変換され、未知語や認識誤り単語に対しては、音素・音節認識によって単語よりも基本単位の音素列や音節列を認識することから、辞書に存在しない未知語あるいは認識誤りを含む大量の音声データから、音声およびテキスト入力による音声検索装置および音声検索方法を提供できるようになることを記載する(段落0027)。
下記特許文献3は、キーワードから生成したサブワード列に基づいて候補区間をあらかじめ絞込むと共に、サブワードを含む候補区間のカウント値に加算を行うという単純な処理で候補区間に順序付けを行うことにより検索結果となる候補区間を選択するため、高速な音声データの検索を行うことが可能となること、及び、キーワードから生成したサブワード列に対して、音声認識の誤認識を想定した補正を行った後、候補区間の生成を行うことにより、精度の良い音声データの検索を行うことが可能となることを記載する(段落0015)。
下記非特許文献1は、会話語の未知語(OOV)キーワード及び認識誤り語の問題を解決する為に、連続会話認識におけるサブワード単位として個々の音節、並びに、検索単位として音節のn−グラム列を使用する旨を記載する。
特開2008−262279号公報 特開2011−175046号公報 特開2009−128508号公報
Keisuke Iwami et al, "Out-of-vocabulary term detection by n-gram array with distance from continuous syllable recognition results", SLT 2010, pages 200 - 205, December 15, 2010. Hagen Soltau et al, "The IBM Attila Speech Recognition Toolkit", Spoken Language Technology Workshop (SLT), 2010 IEEE, pages 97-102, December 15, 2010 <URL:http://ieeexplore.ieee.org/xpl/login.jsp?tp=&arnumber=5700829&url=http%3A%2F%2Fieeexplore.ieee.org%2Fxpls%2Fabs_all.jsp%3Farnumber%3D5700829>から入手可能
業務内容に応じて、音声認識の再現率(Recall)を重視したい、又は適合率(Precision)を重視したいという要求がある。
再現率とは、音声認識誤りによる過検出を許容するが、どれだけ漏れなく検出されたかを判断するための尺度である。再現率は、全検索結果に対する検索要求を満たす検索結果の割合で算出される。
適合率とは、正確に認識されているもののみが検出されたかどうかを判断するための尺度である。適合率は、検索要求を満たす全ドキュメントに対する検索要求を満たす検索結果の割合で算出される。
基本的に、適合率及び再現率は、トレードオフの関係にある。従って、適合率及び再現率の一方を高くすると、他方が低くなりがちである。
一般的に、「単語を認識単位とする単語音声認識」(以下、「単語音声認識」ともいう)の結果に対して文字列検索を行うことにより高精度なキーワード検索を行うことができる。しかしながら、再現率及び適合率の両方をコントロールすることは困難である。例えば、単語の出現確率を変える等の操作を行い、音声認識を再度実行することによって、再現率又は適合率を調節することはある程度可能であるが、この手法は実用的でない。例えば、コールセンターでは、毎日大量の音声(例えば、数千〜数万時間)が発声し、それらをチェックする必要がある。当該大量の音声に対する音声認識の実行には、音声データの量に比例して、時間が掛かってくる。そこで、上記大量の音声に対して話者毎に異なる音声認識結果を用意することは、コストや時間の面からも現実的でない。
一方、「単語よりも短い単位である音素又は音節を認識単位とする音素音声認識」(以下、音素音声認識ともいう)の結果に対してマッチングを行う方法では、言語情報の利用が不十分である為に高い音声認識精度を上げることができなかった。すなわち、音素音声認識は、単語音声認識に比べて高速に実行できる反面、音声認識率は高くない。
そこで、本発明は、高品質の検索エンジンを提供すること、特には適合率が更に高くなる音声検索技法を提供することを目的とする。
また、本発明は、適合率の高い区間のみを出力したり又は適合率の高い区間から低い区間までを出力したりすることを可能にして、目的とする所望の適合率での音声検索を可能にすることを目的とする。
さらに、本発明は、大量の音声データの音声認識は非常に時間がかかる為に、音声認識を再実行すること無しに、適合率の高い検索性能をカバーするキーワードにより検索を行うことを目的とする。
本発明は、音声検索の技法を提供する。特には、本発明は、指定されたキーワード(索引語でもある)の区間を音声データから特定する技法を提供する。当該技法は、音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム及び音声検索装置用のプログラム製品を包含しうる。
本発明に従う第1の態様において、音声検索方法は、音声検索装置が、
文字列と音素列又は音節列とで指定されたキーワードを取得するステップと、
検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の認識結果である文字列と、上記キーワードの上記文字列とを比較して、一致する1以上の区間を検出するステップと、
上記検出した1以上の区間それぞれにおいて認識された音素列又は音節列であり且つ上記音声データに対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である上記音素列又は上記音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記1以上の区間それぞれの評価値を算出するステップと、
上記算出した評価値が所定の閾値を超える区間を出力するステップと
を実行することを含む。
本発明の一つの実施態様において、上記算出するステップが、
上記検出した1以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のN−best認識結果である音素列又は音節列と、上記キーワードの上記音素列とを比較して、一致する上記N−best認識結果の順位を評価値とするステップ
を含みうる。
本発明の一つの実施態様において、上記算出するステップが、
上記検出した1以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識の1−best認識結果である音素列又は音節列と、上記キーワードの上記音素列又は音節列との編集距離を評価値とするステップ
を含みうる。
本発明の一つの実施態様において、上記編集距離が、動的計画法によるマッチングによりマッチングした距離でありうる。
本発明の一つの実施態様において、上記区間それぞれに関連付けられた音素列又は音節列が、上記区間の前後を所定の時間分広げた区間に関連付けられた音素列又は音節列でありうる。
本発明の一つの実施態様において、上記音声検索装置が、
上記検索対象の音声データに対して単語を認識単位とする単語音声認識を行うステップ
をさらに実行することを含みうる。
本発明の一つの実施態様において、上記音声検索装置が、
上記検出した1以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップ
をさらに実行することを含みうる。
本発明の一つの実施態様において、上記音声検索装置が、
上記検索対象の音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップ
をさらに実行することを含みうる。
本発明に従う上記第1の態様は、音声検索装置が、
上記検索対象の音声データに対して単語を認識単位とする単語音声認識を行うステップと、
文字列と音素列又は音節列とで指定されたキーワードを取得するステップと、
上記単語音声認識の認識結果である文字列と、上記キーワードの上記文字列とを比較して、一致する1以上の区間を検出するステップと、
上記検出した1以上の区間に関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップと、
上記検出した1以上の区間それぞれにおいて認識された音素列又は音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記1以上の区間それぞれの評価値を算出するステップと、
上記算出した評価値が所定の閾値を超える区間を出力するステップと
を実行することを下位概念として含む。
本発明に従う上記第1の態様は、音声検索装置が、
上記検索対象の音声データに対して、(1)単語を認識単位とする単語音声認識を行い認識結果である文字列を取得し、且つ、(2)音素又は音節を認識単位とする音素音声認識を行い認識結果である音素列又は音節列を取得するステップと、
文字列と音素列又は音節列とで指定されたキーワードを取得するステップと、
上記単語音声認識の認識結果である文字列と、上記キーワードの上記文字列とを比較して、一致する1以上の区間を検出するステップと、
上記検出した1以上の区間それぞれにおいて認識された音素列又は音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記1以上の区間それぞれの評価値を算出するステップと、
上記算出した評価値が所定の閾値を超える区間を出力するステップと
を実行することを下位概念として含む。
本発明に従う第2の態様において、音声検索装置は、
文字列と音素列又は音節列とで指定されたキーワードを取得するキーワード取得部と、
検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の認識結果である文字列と、上記キーワードの上記文字列とを比較して、一致する1以上の区間を検出する区間検出部と、
上記検出した1以上の区間それぞれにおいて認識された音素列又は音節列であり且つ上記音声データに対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である上記音素列又は上記音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記1以上の区間それぞれの評価値を算出する評価値算出部と
上記算出した評価値が所定の閾値を超える区間を出力する区間出力部と
を備えている。
本発明の一つの実施態様において、上記評価値算出部が、
上記検出した1以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のN−best認識結果である音素列又は音節列と、上記キーワードの上記音素列とを比較して、一致する上記N−best認識結果の順位を評価値としうる。
本発明の一つの実施態様において、上記評価値算出部が
上記検出した1以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識の1−best認識結果である音素列又は音節列と、上記キーワードの上記音素列又は音節列との編集距離を評価値としうる。
本発明の一つの実施態様において、上記編集距離が、動的計画法によるマッチングによりマッチングした距離でありうる。
本発明の一つの実施態様において、上記区間それぞれに関連付けられた音素列又は音節列が、上記区間の前後を所定の時間分広げた区間に関連付けられた音素列又は音節列でありうる。
本発明の一つの実施態様において、上記音声検索装置が、
上記検索対象の音声データに対して単語を認識単位とする単語音声認識を行う単語音声認識部
をさらに備えうる。
本発明の一つの実施態様において、上記音声検索装置が、
上記検出した1以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行う音素音声認識部
をさらに備えうる。
本発明の一つの実施態様において、上記音声検索装置が、
上記検索対象の音声データに対して音素又は音節を認識単位とする音素音声認識を行う音素音声認識部
をさらに備えうる。
また、本発明に従う第3の態様において、音声検索装置用のプログラム(例えば、コンピュータ・プログラム)及び音声検索装置用のプログラム製品(例えば、コンピュータ・プログラム製品)は、上記音声検索装置(例えば、コンピュータ)に、本発明に従う第1の態様に記載の音声検索方法の各ステップを実行させる。
本発明の実施態様に従う音声検索装置用のプログラムはそれぞれ、一つ又は複数のフレキシブル・ディスク、MO、CD−ROM、DVD、BD、ハードディスク装置、USBに接続可能なメモリ媒体、ROM、MRAM、RAM等の任意の音声検索装置読み取り可能な記録媒体に格納することができる。当該音声検索装置用のプログラムは、記録媒体への格納のために、通信回線で接続する他のデータ処理システム、例えばコンピュータからダウンロードしたり、又は他の記録媒体から複製したりすることができる。また、本発明の実施態様に従う音声検索装置用のプログラムは、圧縮し、又は複数に分割して、単一又は複数の記録媒体に格納することもできる。また、様々な形態で、本発明の実施態様に従う音声検索装置用のプログラム製品を提供することも勿論可能であることにも留意されたい。本発明の実施態様に従う音声検索装置用のプログラム製品は、例えば、上記音声検索装置用のプログラムを記録した記憶媒体、又は、上記音声検索装置用のプログラムを伝送する伝送媒体を包含しうる。
本発明の上記概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの構成要素のコンビネーション又はサブコンビネーションもまた、本発明となりうることに留意すべきである。
本発明の実施態様において使用される音声検索装置の各ハードウェア構成要素を、複数のマシンと組み合わせ、それらに機能を配分し実施する等の種々の変更は当業者によって容易に想定され得ることは勿論である。それらの変更は、当然に本発明の思想に包含される概念である。ただし、これらの構成要素は例示であり、そのすべての構成要素が本発明の必須構成要素となるわけではない。
また、本発明は、ハードウェア、ソフトウェア、又は、ハードウェア及びソフトウェアの組み合わせとして実現可能である。ハードウェアとソフトウェアとの組み合わせによる実行において、上記音声検索装置用のプログラムをインストールされた音声検索装置における当該プログラムの実行が典型的な例として挙げられる。かかる場合、当該音声検索装置用のプログラムが当該音声検索装置のメモリにロードされて実行されることにより、当該音声検索装置用のプログラムは、当該音声検索装置を制御し、本発明にかかる処理を実行させる。当該音声検索装置用のプログラムは、任意の言語、コード、又は、表記によって表現可能な命令群から構成されうる。そのような命令群は、当該音声検索装置が特定の機能を直接的に、又は、1.他の言語、コード若しくは表記への変換及び、2.他の媒体への複製、のいずれか一方若しくは双方が行われた後に、実行することを可能にするものである。
本発明の実施態様に従うと、適合率がより高い音声検索エンジンを提供することが可能になる。
また、本発明の実施態様に従うと、下記に述べる閾値Tの調整によって、適合率の高い区間のみを出力したり又は適合率の高い区間から低い区間までを出力したりすることが可能となる。
本発明の実施態様において使用されうる音声検索装置(例えば、コンピュータ)の一例を示した図である。 本発明の実施態様において使用されうる音声検索装置(例えば、スマートフォン、携帯電話、タブレット端末、ゲーム端末)の一例を示した図である。 本発明の実施態様において使用されうる単語列及び音素列又は音節列(以下、単に「音素列」という場合には、「音素列又は音節列」を意味する。)を、音声データ(英語である)から生成する為のダイアグラムを示す。 本発明の実施態様に従い、図2Aで行われた上記単語音声認識の認識結果及び音素音声認識のN−best認識結果に対して、キーワード検出を行う為のダイアグラムを示す。 本発明の実施態様に従い、図2Aで行われた上記単語音声認識の認識結果及び音素音声認識の1−best認識結果に対して、キーワード検出を行う為のダイアグラムを示す。 本発明の実施態様において使用されうる単語列及び音素列又は音節列を、音声データ(日本語である)から生成する為のダイアグラムを示す。 本発明の実施態様に従い、図3Aで行われた上記単語音声認識の認識結果及び音素音声認識のN−best認識結果に対して、キーワード検出を行う為のダイアグラムを示す。 本発明の実施態様に従い、図3Aで行われた上記単語音声認識の認識結果及び音素音声認識の1−best認識結果に対して、キーワード検出を行う為のダイアグラムを示す。 本発明の実施態様において使用されうる単語列及び音素列又は音節列(以下、単に「音素列」という場合には、「音素列又は音節列」を意味する。)を音声データから生成する為のフローチャートを示す。 本発明の実施態様に従い、上記音声データに対してキーワード検索(その一部に、N−best認識結果を用いる例)を行う為のフローチャートを示す。 本発明の実施態様に従い、上記音声データに対してキーワード検索(その一部に、1−best認識結果及び編集距離を用いる例)を行う為のフローチャートを示す。 図1A又は図1Bに従うハードウェア構成を好ましくは備えており、図4A又は図4Bに示すフローチャートに従って本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。 図1A又は図1Bに従うハードウェア構成を好ましくは備えており、図4A又は図4Bに示すフローチャートに従って本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。 本発明の実施態様及び従来技術にそれぞれ従い、テスト音声データに対してキーワード検索実験を行った結果として得られた検索性能を示す。
本発明の実施形態を、以下に図面に従って説明する。以下の図を通して、特に断らない限り、同一の符号は同一の対象を指す。本発明の実施形態は、本発明の好適な態様を説明するためのものであり、本発明の範囲をここで示すものに限定する意図はないことを理解されたい。
図1A及び図1Bは、本発明の実施態様において使用されうるハードウェア(音声検索装置)の一例を示した図である。
本発明の実施態様に従う音声検索装置は、1又は複数の音声検索装置から構成されうる。
図1Aは、本発明の実施態様において使用されうる音声検索装置(例えば、コンピュータ)を実現するためのハードウェア構成の一例を示した図である。
音声検索装置(101)は例えば、コンピュータ(例えば、デスクトップ・コンピュータ、ノート・コンピュータ、ウルトラブック、サーバ・コンピュータ)でありうる。
音声検索装置(101)は、CPU(102)とメイン・メモリ(103)とを備えており、これらはバス(104)に接続されている。CPU(102)は好ましくは、32ビット又は64ビットのアーキテクチャに基づくものである。当該CPU(102)は例えば、インテル社のCore(商標 i)シリーズ、Core(商標) 2シリーズ、Atom(商標)シリーズ、Xeon(登録商標)シリーズ、Pentium(登録商標)シリーズ若しくはCeleron(登録商標)シリーズ、AMD(Advanced Micro Devices)社のAシリーズ、Phenom(商標)シリーズ、Athlon(商標)シリーズ、Turion(商標)シリーズ若しくはSempron(商標)、又は、インターナショナル・ビジネス・マシーンズ・コーポレーションのPower(商標)シリーズでありうる。
バス(104)には、ディスプレイ・コントローラ(105)を介して、ディスプレイ(106)、例えば液晶ディスプレイ(LCD)が接続されうる。また、液晶ディスプレイ(LCD)は例えば、タッチパネル・ディスプレイ又はフローティング・タッチ・ディスプレイであってもよい。ディスプレイ(106)は、音声検索装置(101)上で動作中のソフトウェア、例えば本発明の実施態様に従う音声検索装置用のプログラムが稼働することによって表示される情報、例えば音声検索結果を、適当なグラフィック・インタフェースで表示するために使用されうる。
バス(104)には任意的に、例えばSATA又はIDEコントローラ(107)を介して、記憶装置(108)、例えばハードディスク又はソリッド・ステート・ドライブに接続されうる。
バス(104)には任意的に、例えばSATA又はIDEコントローラ(107)を介して、記憶装置(108)、ドライブ(109)、例えばCD、DVD又はBDドライブが接続されうる。
バス(104)には、周辺装置コントローラ(110)を介して、例えばキーボード・マウス・コントローラ又はUSBバスを介して、任意的に、キーボード(111)及びマウス(112)が接続されうる。
記憶装置(108)には、オペレーティング・システム、Windows(登録商標)OS、UNIX(登録商標)、MacOS(登録商標)、及びJ2EEなどのJava(登録商標)処理環境、Java(登録商標)アプリケーション、Java(登録商標)仮想マシン(VM)、Java(登録商標)実行時(JIT)コンパイラを提供するプログラム、本発明の実施態様に従う音声検索装置用のプログラム、及びその他のプログラム、並びにデータ(例えば、検索対象の音声データや、文字列と音素列又は音節列とで指定されたキーワード)が、メイン・メモリ(103)にロード可能なように記憶されうる。
記憶装置(108)は、音声検索装置(101)内に内蔵されていてもよく、当該音声検索装置(101)がアクセス可能なようにケーブルを介して接続されていてもよく、又は、当該音声検索装置(101)がアクセス可能なように有線又は無線ネットワークを介して接続されていてもよい。
ドライブ(109)は、必要に応じて、CD−ROM、DVD−ROM又はBDからプログラム、例えばオペレーティング・システム又はアプリケーションを記憶装置(108)にインストールするために使用されうる。
通信インタフェース(114)は、例えばイーサネット(登録商標)・プロトコルに従う。通信インタフェース(114)は、通信コントローラ(113)を介してバス(104)に接続され、音声検索装置(101)を通信回線(115)に有線又は無線接続する役割を担い、音声検索装置(101)のオペレーティング・システムの通信機能のTCP/IP通信プロトコルに対して、ネットワーク・インタフェース層を提供する。通信回線は例えば、有線LAN接続規格に基づく有線LAN環境、又は無線LAN接続規格に基づく無線LAN環境、例えばIEEE802.11a/b/g/nなどのWi−Fi無線LAN環境、若しくは携帯電話網環境(例えば、3G、又は4G(LTEを含む)環境)でありうる。
音声検索装置(101)は、通信回線(115)を介して例えば他の装置(例えば、コンピュータ又はネットワーク・アタッチト・ストレージ)からのデータを受信し、記憶装置(108)上に格納しうる。
図1Bは、本発明の実施態様において使用されうる音声検索装置(例えば、スマートフォン、携帯電話、タブレット端末、ゲーム端末)の一例を示した図である。
図1Bに示す音声検索装置(121)のCPU(122)、メイン・メモリ(123)、バス(124)、ディスプレイ・コントローラ(125)、ディスプレイ(126)、SSD(128)、通信コントローラ(133)、通信インタフェース(134)及び通信回線(135)はそれぞれ、図1Aに示す音声検索装置(101)のCPU(102)、メイン・メモリ(103)、バス(104)、ディスプレイ・コントローラ(105)、ディスプレイ(106)、SSD(108)、通信コントローラ(113)、通信インタフェース(114)及び通信回線(115)に対応する。
音声検索装置(121)がスマートフォン、携帯電話又はタブレット端末等の場合、CPU(122)は例えば、スマートフォン、携帯電話若又はタブレット端末用の各種CPU、又はアップル社(登録商標)のAシリーズでありうる。
SSD(128)ディスクには例えば、スマートフォン用OS(例えば、アンドロイド(登録商標)OS、Windows(登録商標)PhoneOS若しくはWindows(登録商標)、又はiOS)、本発明の実施態様に従うアプリケーション・プログラム、及びその他のプログラム、並びにデータが、メイン・メモリ(123)にロード可能なように記憶されうる。
キーボード実現部(130)は、アプリの一つとして、ディスプレイ(126)上にソフトウェアキーボードを表示しうる。
図2A〜図2C及び図3A〜図3Cそれぞれは、本発明の実施態様において使用されうる単語列及び音素列又は音節列を音声データから生成する為のダイアグラム、並びに、本発明の実施態様に従い、上記音声データに対してキーワード検索を行う為のダイアグラムを示す。
図2A〜図2Cは、音声データが英語である場合の上記ダイアグラムを示す。
図2Aは、本発明の実施態様において使用されうる単語列及び音素列又は音節列を、英語の音声データから生成する為のダイアグラムを示す。
図1Aに示す音声検索装置(101)若しくは図1Bに示す音声検索装置(121)又は、音声検索装置に単語列及び音素列又は音節列のデータを提供する装置(以下、図2Aの説明において、音声検索装置という場合には、音声検索装置(101,121)及び当該データを提供する装置のいずれかであることを意味する)は、単語音声認識部(201)及び音素音声認識部(202)を備えている。
単語音声認識部(201)は、検索対象である英語の音声データ(211)に対して単語を認識単位とする単語音声認識を行い、当該単語音声認識の認識結果Rwを取得する。
当該単語音声認識結果Rwは、単語列である。当該単語列は例えば、タイムインデックス付き単語列でありうる。タイムインデックス付き単語列は例えば、{単語w,開始時間b,終了時間e}の繰り返しフォーマット(222)でありうる。
単語音声認識部(201)は、当該単語音声認識の認識結果Rwである文字列(単語列である)を例えば、当該音声検索装置がアクセス可能な、単語列を格納した記憶媒体(221)に格納しうる。
単語音声認識部(201)は、音声データ(211)に対する単語音声認識の認識結果Rwとして、以下に示す単語列を一部に含む単語列を出力したとする(223)(なお、タイムインデックスの表示は省略している)。
Rw = ... not just desserts on Wednesdays... ... ...cookies to quick and easy desserts, ...
音素音声認識部(202)は、検索対象である英語の音声データ(211)に対して音素又は音節を認識単位とする音素音声認識を行い、当該音素音声認の認識結果Rsを取得する。音素又は音節はサブワードとも呼ばれるものであり、単語よりも短い単位である音素又は音節からなる。
当該音素音声認識結果Rsは、音素列又は音節列である。当該音素列又は音節列は例えば、タイムインデックス付き音素列又は音節列でありうる。タイムインデックス付き音素列又は音節列は例えば、{音素列又は音節列w,開始時間b,終了時間e}の繰り返しフォーマット(232)でありうる。
音素音声認識部(202)は、当該音素音声認の認識結果Rsである音素列又は音節列を例えば、当該音声検索装置がアクセス可能な、音素列を格納した記憶媒体(231)に格納しうる。
音素音声認識部(202)は、音素音声認識の認識結果として、N−bestの認識結果又は、1−bestの認識結果を出力しうる。N−bestの認識結果は、例えば、Rs=Rs[1], Rs[2], Rs[3], …, Rs[N](以下、Rs[1…N]とも記載する)(なお、タイムインデックスの表示は省略している)で表されうる(233)。1−bestの認識結果は、例えば、Rs=Rs[1](なお、タイムインデックスの表示は省略している)で表されうる(234)。
音素音声認識部(202)は、音声データ(211)に対する音素音声認識のN−best認識結果Rsとして、以下に示す音素列又は音節列を出力したとする(233)(なお、タイムインデックスの表示は省略している)。
Rs[1] = ... N AA T JH AH S T D EH Z ER T AA N W EH N Z D EY Z ... UH K IY T AX K W IH K AE N D IY Z IY D IH Z ER TS ...
Rs[2] = ... N AA T JH AH S T D IH Z ER T AA N W EH N Z D EY Z ... UH K IY T AX K W IH K AE N D IY Z IY D IH Z ER T ...
Rs[3] = ... AA T JH AA S T D EH Z ER TS AA N W EH N Z D EY ... UH K IY T AX K W IH K AE N D IY Z IY D IH Z ER TS ...
・・・
Rs[N] = ・・・
または、音素音声認識部(202)は、音声データ(211)に対する音素音声認識の1−best認識結果Rsとして、以下に示す音素列又は音節列を出力したとする(234)(なお、タイムインデックスの表示は省略している)。
Rs = ... N AA T JH AH S T D EH Z ER T AA N W EH N Z D EY Z ... UH K IY T AX K W IH K AE N D IY Z IY D IH Z ER TS ...
図2Bは、本発明の実施態様に従い、図2Aで行われた上記単語音声認識の認識結果Rw及び上記音素音声認識のN−best認識結果Rsに対して、キーワード検出を行う為のダイアグラムを示す。以下、図2Bの説明において、音声検索装置という場合には、図1Aに示す音声検索装置(101)又は図1Bに示す音声検索装置(121)であることを意味する。
音声検索装置は、キーワード検索を行う為の検索対象であるキーワード(以下、検索キーワードともいう)を取得する。当該キーワードの文字列Kw(245)が「desserts」(246)であり、当該キーワードの音素列Ks(255)が「D IH Z ER TS」(256)であるとする。
図2B(A)において、音声検索装置は、検索キーワードの文字列Kw(245)「desserts」(246)と、単語音声認識結果Rw(241)中の文字列とを比較する。すなわち、音声検索装置は、検索キーワードの文字列Kwと、単語音声認識結果Rwである文字列の少なくとも一部とが一致するかを判断する。
図2B(A)に示すRw(241)は、検索キーワードの文字列Kw(246)「desserts」(246)を含む部分(241a及び241b)を示したものである。
図2B(A)において、音声検索装置は、検索キーワードの文字列Kw(245)「desserts」(246)が、Rw(241)中の区間D1(tb,te)=4.86〜5.13秒にある文字列「desserts」、及び、区間D2(tb,te)=11.38〜11.66秒にある文字列「desserts」と一致することを見つけたとする。tbは、一致する文字列が音声データ中に出現する当該区間Dの開始時間を示し、teは、一致する文字列が音声データ中に出現する当該区間Dの終了時間を示す。
音声検索装置は、上記区間D1及び上記区間D2(tb,te)を、検索キーワードの文字列Kwと、単語音声認識結果Rw中の文字列の一部が一致する区間として検出する。
図2B(B)において、音声検索装置は、上記区間D1(tb,te)=4.86〜5.13秒及び上記区間D2(tb,te)=11.38〜11.66秒それぞれの両端(すなわち、開始時間及び終了時間である)を所定時間(0.2秒)分それぞれ前後に広げて、区間D1’(tb−δ,te+δ)=4.66〜5.33秒及び区間D2’(tb−δ,te+δ)=11.18〜11.86秒とする。
図2B(C)に示すRs(251)は、検索キーワードの音素列Ks(256)を含む部分(251a及び251b)を示したものである。
図2B(C)において、音声検索装置は、上記区間D1’中において及び上記区間D2’中において認識されたN−best音素音声認識結果Rsを取得する。音素音声認識結果Rsは、検索対象の音声データ(211)に対して行われた音素音声認識結果のうちから上記区間D1’及び上記区間D2’それぞれに関連付けられた音素音声認識結果を取り出したもの、又は、上記区間D1’又は上記区間D2’それぞれに関連付けられた音声データそれぞれに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。
N−best音素音声認識結果Rsは、Rs=Rs[1], Rs[2], Rs[3], …, Rs[N]で表され(251)、Nの値が大きいほど順位が低くなる。
音声検索装置は、上記区間D1’において、音素音声認識結果Rs[20]中に、検索キーワードの音素列Ks(255)「D IH Z ER TS」(256)と一致する音素列があることを見つけたとする(251)。同様に、音声検索装置は、上記区間D2’において、音素音声認識結果Rs[1]中に、検索キーワードの音素列Ks(255)「D IH Z ER TS」(256)と一致する音素列があることを見つけたとする(252)。
図2B(D)において、音声検索装置は、上記区間D1’及び上記区間D2’の確からしさを示す指標であるスコアCsそれぞれを下記式に従い算出する。
Cs=1−log10(n)/log10(N)
音声検索装置は、上記区間D1’について、Cs(D1’)=0.56であり、上記区間D2’について、Cs(D2’)=1であることを算出する。
さらに、音声検索装置は、下記式に従い、上記区間D1’及び上記区間D2’それぞれの評価値であるスコアCを算出する。
C=Cw+Cs
ここで、Cwは、検索キーワードの文字列Kw(245)「desserts」(246)が、Rw(241)中のある区間中の文字列と一致する場合に1とし、一致しない場合に0とする。
ここで、Csは、上記したとおり、上記文字列Kw(245)「desserts」(246)が一致した区間の確からしさを示す指標である。
音声検索装置は、上記区間D1’について、C(D1’)=1(Cw)+0.56(Cs)=1.56であり、上記区間D2’について、C(D2’)=1(Cw)+1(Cs)=2であることを算出する。
図2B(E)において、グラフ(261)に示されているように、音声検索装置は、C(D1’)及びC(D2’)それぞれを、閾値T 1.7(262)と比較し、当該閾値を超える区間D2’をキーワード検出区間(263)として出力する。
図2Cは、本発明の実施態様に従い、図2Aで行われた上記単語音声認識の認識結果Rw及び上記音素音声認識の1−best認識結果Rsに対して、キーワード検出を行う為のダイアグラムを示す。以下、図2Cの説明において、音声検索装置という場合には、図1Aに示す音声検索装置(101)又は図1Bに示す音声検索装置(121)であることを意味する。
音声検索装置は、キーワード検索を行う為の検索キーワードを取得する。当該キーワードの文字列Kw(245)が「desserts」(246)であり、当該キーワードの音素列Ks(255)が「D IH Z ER TS」(256)であるとする。
図2C(A)において、音声検索装置は、検索キーワードの文字列Kw(245)「desserts」(246)と、単語音声認識結果Rw中の文字列とを比較する。すなわち、音声検索装置は、検索キーワードの文字列Kwと、単語音声認識結果Rwである文字列の少なくとも一部とが一致するかを判断する。
図2C(A)に示すRw(241)は、検索キーワードの文字列Kw(245)「desserts」(246)を含む部分(241a及び241b)を示したものである。
図2C(A)において、音声検索装置は、検索キーワードの文字列Kw(245)「desserts」(246)が、Rw(241)中の区間D1(tb,te)=4.86〜5.13秒にある文字列「desserts」、及び、区間D2(tb,te)=11.38〜11.66秒にある文字列「desserts」と一致することを見つけたとする。
音声検索装置は、上記区間D1及び上記区間D2(tb,te)を、検索キーワードの文字列Kw(245)「desserts」(246)と、単語音声認識結果Rw(241)である文字列の一部が一致する区間として検出する。
図2C(B)において、音声検索装置は、区間D1(tb,te)=4.86〜5.13秒及び区間D2(tb,te)=11.38〜11.66秒それぞれの両端(すなわち、開始時間及び終了時間である)を所定時間(0.2秒)分それぞれ前後に広げて、区間D1’(tb−δ,te+δ)=4.66〜5.33秒及び区間D2’(tb−δ,te+δ)=11.18〜11.86秒とする。
図2C(C)に示すRs(271)は、検索キーワードの音素列Ks(256)を含む部分(271a及び271b)を示したものである。
図2C(C)において、音声検索装置は、上記区間D1’中において及び上記区間D2’中において認識された1−best音素音声認識結果Rsを取得する。音素音声認識結果Rsは、検索対象の音声データ(211)に対して行われた音素音声認識結果のうちから上記区間D1’及び上記区間D2’それぞれに関連付けられた音素音声認識結果を取り出したもの、又は、上記区間D1’又は上記区間D2’それぞれに関連付けられた音声データそれぞれに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。
1−best音素音声認識結果Rsは、N−bestにおけるNが1の場合である(271)。
音声検索装置は、上記区間D1’において、音素音声認識結果Rs中に、検索キーワードの音素列Ks(255)「D IH Z ER TS」(256)と一致する音素列があることを見つけたとする(271)。同様に、音声検索装置は、上記区間D2’において、音素音声認識結果Rs中に、検索キーワードの音素列Ks(255)「D IH Z ER TS」(256)と一致する音素列があることを見つけたとする(272)。
図2C(D)において、音声検索装置は、上記区間D1’及び上記区間D2’の確からしさを示す指標であるスコアCsそれぞれを、1−bestの認識結果である音素列(「D EH Z ER T」(271a)及び「D IH Z ER TS」(271b)それぞれと検索キーワードの音素列(255)「D IH Z ER TS」(256)との編集距離を、文字置換コスト表(281)を使用して下記式に従い算出する。
Cs=1−編集距離(Ks,Rs)/長さ(Ks)
音声検索装置は、上記区間D1’について、Cs(D1’)=0.68であること(282)、及び、上記区間D2’について、Cs(D2’)=1であること(283)を算出する。
さらに、音声検索装置は、下記式に従い、上記区間D1’及び上記区間D2’それぞれの評価値であるスコアCを、図2B(D)で示した式 C=Cw+Cs に従い算出する。
音声検索装置は、上記区間D1’について、C(D1’)=1(Cw)+0.68(Cs)=1.68であり、上記区間D2’について、C(D2’)=1(Cw)+1(Cs)=2であることを算出する。
図2C(E)において、グラフ(291)に示されているように、音声検索装置は、C(D1’)及びC(D2’)それぞれを、閾値T 1.7(292)と比較し、当該閾値を超える区間D2’をキーワード検出区間(293)として出力する。
図3A〜図3Cは、音声データが日本語である場合の上記ダイアグラムを示す。
図3Aは、本発明の実施態様において使用されうる単語列及び音素列又は音節列を、日本語の音声データから生成する為のダイアグラムを示す。
図1Aに示す音声検索装置(101)若しくは図1Bに示す音声検索装置(121)又は、音声検索装置に単語列及び音素列又は音節列のデータを提供する装置(以下、図3Aの説明において、音声検索装置という場合には、音声検索装置(101,121)及び当該データを提供する装置のいずれかであることを意味する)は、単語音声認識部(301)及び音素音声認識部(302)を備えている。
単語音声認識部(301)は、図2Aに示す単語音声認識部(201)と同じであるので、その説明を省略する。
単語音声認識部(301)は、音声データ(311)に対する単語音声認識の認識結果Rwとして、以下に示す単語列(日本語,平仮名、カタカナ及び漢字の組み合わせ)を一部に含む単語列を出力したとする(323)(なお、タイムインデックスの表示は省略している)。
Rw = ... ですが ~ 伊勢丹 が 今 最安値... ... ...デパート 関連 では やはり 伊勢丹 が ...
音素音声認識部(302)は、図2Aに示す音素音声認識部(202)と同じであるので、その説明を省略する。
音素音声認識部(302)は、音声データ(311)に対する音素音声認識のN−best認識結果Rsとして、以下に示す音素列又は音節列を出力したとする(233)(なお、タイムインデックスの表示は省略している)。
Rs[1] = ... de su ga ~ i ke sa _n ga i ma sa i ya su ne ... de wa ka _n re _n wa ya ha ri i se ta _n ga ...
Rs[2] = ... de su ga ~ i se a _n ga i ma sa i ya su ... de pa: to ka _n re _n a ya ha i se ta _n ga ...
Rs[3] = ... su ga a: i sa sa _n ga i ma sa i ya su ... de a: to ga _n re _n a ya ha i se a _n ga ...
Rs[N] = ・・・
または、音素音声認識部(302)は、音声データ(311)に対する音素音声認識の1−best認識結果Rsとして、下記を出力したとする。
Rs = ... de su ga ~ i ke sa _n ga i ma sa i ya su ne ... de wa ka _n re _n wa ya ha ri i se ta _n ga ...
図3Bは、本発明の実施態様に従い、図3Aで行われた上記単語音声認識の認識結果Rw及び音素音声認識のN−best認識結果Rsに対して、キーワード検出を行う為のダイアグラムを示す。以下、図3Bの説明において、音声検索装置という場合には、図1Aに示す音声検索装置(101)又は図1Bに示す音声検索装置(121)であることを意味する。
音声検索装置は、キーワード検索を行う為の検索対象であるキーワード(検索キーワード)を取得する。当該キーワードの文字列Kw(345)が「伊勢丹」(日本語,漢字)(346)であり、当該キーワードの音素列Ks(355)が「i se ta _n」(356)であるとする。
図3B(A)において、音声検索装置は、検索キーワードの文字列Kw(345)「伊勢丹」(345)と、単語音声認識結果Rw(341)中の文字列とを比較する。すなわち、音声検索装置は、検索キーワードの文字列Kwと、単語音声認識結果Rwである文字列の少なくとも一部とが一致するかを判断する。
図3B(A)に示すRw(341)は、検索キーワードの文字列Kw(346)「伊勢丹」(346)を含む部分(341a及び341b)を示したものである。
図3B(A)において、音声検索装置は、検索キーワードの文字列Kw(345)「伊勢丹」(346)が、Rw(341)中の区間D1(tb,te)=4.86〜5.13秒にある文字列「伊勢丹」、及び、区間D2(tb,te)=11.38〜11.66秒にある文字列「伊勢丹」と一致することを見つけたとする。
音声検索装置は、上記区間D1及び上記区間D2(tb,te)を、検索キーワードの文字列Kwと、単語音声認識結果Rw中の文字列の一部が一致する区間として検出する。
図3B(B)において、音声検索装置は、上記区間D1(tb,te)=4.86〜5.13秒及び上記区間D2(tb,te)=11.38〜11.66秒それぞれの両端(すなわち、開始時間及び終了時間である)を所定時間(0.2秒)分それぞれ前後に広げて、区間D1’(tb−δ,te+δ)=4.66〜5.33秒及び区間D2’(tb−δ,te+δ)=11.18〜11.86秒とする。
図3B(C)に示すRs(351)は、検索キーワードの音素列Ks(356)を含む部分(351a及び351b)を示したものである。
図3B(C)において、音声検索装置は、上記区間D1’中において及び上記区間D2’中において認識されたN−best音素音声認識結果Rsを取得する。音素音声認識結果Rsは、検索対象の音声データ(311)に対して行われた音素音声認識結果のうちから上記区間D1’及び上記区間D2’それぞれに関連付けられた音素音声認識結果を取り出したもの、又は、上記区間D1’又は上記区間D2’それぞれに関連付けられた音声データそれぞれに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。
N−best音素音声認識結果Rsは、Rs=Rs[1], Rs[2], Rs[3], …, Rs[N]で表され(351)、Nの値が大きいほど順位が低くなる。
音声検索装置は、上記区間D1’において、音素音声認識結果Rs[20]中に、検索キーワードの音素列Ks(355)「i se ta _n」(356)と一致する音素列があることを見つけたとする(351)。同様に、音声検索装置は、上記区間D2’において、音素音声認識結果Rs[1]中に、検索キーワードの音素列Ks(355)「i se ta _n」(356)と一致する音素列があることを見つけたとする(352)。
図3B(D)において、音声検索装置は、上記区間D1’及び上記区間D2’の確からしさを示す指標であるスコアCsそれぞれを下記式に従い算出する。
Cs=1−log10(n)/log10(N)
音声検索装置は、上記区間D1’について、Cs(D1’)=0.56であり、上記区間D2’について、Cs(D2’)=1であることを算出する。
さらに、音声検索装置は、下記式に従い、上記区間D1’及び上記区間D2’それぞれの評価値であるスコアCを算出する。
C=Cw+Cs
ここで、Cwは、検索キーワードの文字列Kw(345)「伊勢丹」(346)が、Rw(341)中のある区間中の文字列と一致する場合に1とし、一致しない場合に0とする。
ここで、Csは、上記したとおり、上記文字列Kw(345)「伊勢丹」(346)が一致した区間の確からしさを示す指標である。
音声検索装置は、上記区間D1’について、C(D1’)=1(Cw)+0.56(Cs)=1.56であり、上記区間D2’について、C(D2’)=1(Cw)+1(Cs)=2であることを算出する。
図3B(E)において、グラフ(361)に示されているように、音声検索装置は、Cs(D1’)及びCs(D2’)それぞれを、閾値T 1.7(362)と比較し、当該閾値を超える区間D2’をキーワード検出区間(363)として出力する。
図3Cは、本発明の実施態様に従い、図3Aで行われた上記単語音声認識の認識結果Rw及び上記音素音声認識の1−best認識結果Rsに対して、キーワード検出を行う為のダイアグラムを示す。以下、図3Cの説明において、音声検索装置という場合には、図1Aに示す音声検索装置(101)又は図1Bに示す音声検索装置(121)であることを意味する。
音声検索装置は、キーワード検索を行う為の検索キーワードを取得する。当該キーワードの文字列Kw(345)が「伊勢丹」(346)であり、当該キーワードの音素列Ks(355)が「i se ta _n」(356)であるとする。
図3C(A)において、音声検索装置は、キーワードの文字列Kw(345)「伊勢丹」(346)と、単語音声認識結果Rw中の文字列とを比較する。すなわち、音声検索装置は、検索キーワードの文字列Kwと、単語音声認識結果Rwである文字列の少なくとも一部とが一致するかを判断する。
図3C(A)に示すRw(341)は、検索キーワードの文字列Kw(345)「伊勢丹」(346)を含む部分(341a及び341b)を示したものである。
図3C(A)において、音声検索装置は、検索キーワードの文字列Kw(345)「伊勢丹」(346)が、Rw(341)中の区間D1(tb,te)=4.86〜5.13秒にある文字列「desserts」、及び、区間D2(tb,te)=11.38〜11.66にある文字列「伊勢丹」と一致することを見つけたとする。
音声検索装置は、上記区間D1及び上記区間D2(tb,te)を、検索キーワードの文字列Kw(345)「伊勢丹」(346)と、単語音声認識結果Rw(341)である文字列の一部が一致する区間として検出する。
図3C(B)において、音声検索装置は、区間D1(tb,te)=4.86〜5.13秒及び区間D2(tb,te)=11.38〜11.66秒それぞれの両端(すなわち、開始時間及び終了時間である)を所定時間(0.2秒)分それぞれ前後に広げて、区間D1’(tb−δ,te+δ)=4.66〜5.33秒及び区間D2’(tb−δ,te+δ)=11.18〜11.86秒とする。
図3C(C)に示すRs(371)は、検索キーワードの音素列Ks(356)を含む部分(371a及び371b)を示したものである。
図3C(C)において、音声検索装置は、上記区間D1’中において及び上記区間D2’中において認識された1−best音素音声認識結果Rsを取得する。音素音声認識結果Rsは、検索対象の音声データ(311)に対して行われた音素音声認識結果のうちから上記区間D1’及び上記区間D2’それぞれに関連付けられた音素音声認識結果を取り出したもの、又は、上記区間D1’又は上記区間D2’それぞれに関連付けられた音声データそれぞれに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。
1−best音素音声認識結果Rsは、N−bestにおけるNが1の場合である(371)。
音声検索装置は、上記区間D1’において、音素音声認識結果Rs中に、検索キーワードの音素列Ks(355)「i ke sa _n」(356)と一致する音素列があることを見つけたとする(371)。同様に、音声検索装置は、上記区間D2’において、音素音声認識結果Rs中に、検索キーワードの音素列Ks(355)「i ke sa _n」(356)と一致する音素列があることを見つけたとする(372)。
図3C(D)において、音声検索装置は、上記区間D1’及び上記区間D2’の確からしさを示す指標であるスコアCsそれぞれを、1−bestの認識結果である音素列(「i ke sa _n」(371a)及び「i ke sa _n」(371b)それぞれと検索キーワードの音素列(355)「i ke sa _n」(356)との編集距離を、文字置換コスト表(381)を使用して下記式に従い算出する。
Cs=1−編集距離(Ks,Rs)/長さ(Ks)
音声検索装置は、上記区間D1’について、Cs(D1’)=0.68であること(382)、及び、上記区間D2’について、Cs(D2’)=1であること(383)を算出する。
さらに、音声検索装置は、下記式に従い、上記区間D1’及び上記区間D2’それぞれの評価値であるスコアCを、図3B(D)で示した式 C=Cw+Cs に従い算出する。
音声検索装置は、上記区間D1’について、C(D1’)=1(Cw)+0.68(Cs)=1.68であり、上記区間D2’について、C(D2’)=1(Cw)+1(Cs)=2であることを算出する。
図3C(E)において、グラフ(391)に示されているように、音声検索装置は、Cs(D1’)及びCs(D2’)それぞれを、閾値T 1.7(392)と比較し、当該閾値を超える区間D2’をキーワード検出区間(393)として出力する。
以下に、図4Aに示すフローチャートに従って、本発明の実施態様において使用されうる単語列及び音素列又は音節列を音声データから生成する為の処理を説明し、次に、図4B及び図4Cに示すフローチャートに従って、本発明の実施態様に従い、上記音声データに対してキーワード検索を行う為の処理を説明する。
図4Aは、本発明の実施態様において使用されうる単語列及び音素列又は音節列を音声データから生成する為のフローチャートを示す。
本発明の実施態様において使用されうる単語列及び音素列又は音節列は、図1Aに示す音声検索装置(101)若しくは図1Bに示す音声検索装置(121)によって生成されてもよく、又は、当該音声検索装置(101、121)以外の電子装置(例えば、コンピュータ)によって生成されてもよい。
本発明の実施態様において使用されうる単語列及び音素列又は音節列を図1Aに示す音声検索装置(101)又は図1Bに示す音声検索装置(121)が生成する場合について、以下に説明する。なお、図4Aに示すフローチャートの説明において、「音声検索装置」という場合には、音声検索装置(101)又は音声検索装置(121)を意味する。
ステップ401において、音声検索装置は、音声データから単語列と、任意的に音素列又は音節列とを生成する処理を開始する。
ステップ402において、音声検索装置は、音声データを例えば当該コンピュータが読み取り可能な記憶媒体(例えば、図1Aに示す記憶媒体(108)又は図1Bに示す記憶媒体(128))から読み取り、又は、当該コンピュータがネットワークを介してアクセス可能な他の装置(例えば、コンピュータ又はネットワーク・アタッチト・ストレージ)からダウンロードする。
ステップ403において、音声検索装置は、従来技術である音素音声認識手法に従い、ステップ402で読み取った音声データに対して音素音声認識を行う。音素音声認識は、音声データを音声言語の基本単位である音素又は音節の記号列に変換するものである。音素音声認識は例えば音声認識エンジンの一部として実行され、音声データの音声信号から音素の識別に用いる特徴的な指標を取り出し、音響モデル(音声信号の特徴と音素の対応を記録したデータベースである)を使って、音声データを音素又は音節の羅列に変換することによって行われうる。
音素は、語の意味を区別する音声の最小単位である。音節は、典型的には、(1)母音(V)、(2)子音+母音(CV)、(3)母音+子音(VC)、及び(4)子音+母音+子音(CVC)のような母音を中心としたまとまりである。音素又は音節の定義は言語により異なりうるが、本発明の実施態様において音素又は音節という場合にはこれら言語により異なる定義を包含するものとする。
ステップ404において、音声検索装置は、ステップ403での音素音声認識の認識結果Rsを取得する。音素音声認識結果Rsは、音素列又は音節列である。当該音素列又は音節列は例えば、タイムインデックス付き音素列又は音節列でありうる。タイムインデックス付き音素列又は音節列は例えば、{音素列又は音節列w,開始時間b,終了時間e}の繰り返しフォーマットでありうる。
音声検索装置は、音素音声認識の認識結果として、N−bestの認識結果又は1−bestの認識結果を出力しうる。
音声検索装置は、上記取得した音素音声認識結果Rwを例えば、当該音声検索装置が書き込み可能な記憶媒体(例えば、図1Aに示す記憶媒体(108)又は図1Bに示す記憶媒体(128))に書き込み、又は、当該音声検索装置がネットワークを介してアクセス可能な他の装置(例えば、コンピュータ又はネットワーク・アタッチト・ストレージ)にアップロードしうる。
音声検索装置は、音素列又は音節列を生成する処理について、上記ステップ403及び上記ステップ404を実施する代わりに、下記図4Bに示すステップ416での区間D(tb,te)が検出された後において、当該区間Dに関連付けられた音声データ(すなわち、当該区間Dの開始時間及び終了時間内にある音声データ)に対してのみ行うようにしてもよい。代替的には、音声検索装置は、音素列又は音節列を生成する処理について、上記ステップ403及び上記ステップ404を実施する代わりに、下記図4Bに示すステップ417での区間D’(tb−δ,te+δ)が検出された後において、当該区間D’に関連付けられた音声データ(すなわち、当該区間D’の開始時間及び終了時間内にある音声データ)に対してのみ行うようにしてもよい。
ステップ405において、音声検索装置は、従来技術である単語音声認識手法に従い、ステップ402で読み取った音声データに対して、ステップ403とは独立的に単語音声認識を行う。代替的には、音声検索装置は、従来技術である単語音声認識手法に従い、ステップ404において取得した音素音声認識結果Rsに対して、単語音声認識を行う。単語音声認識は、音声データを単語列に変換するものである。単語音声認識は例えば音声認識エンジンの一部として実行され、例えば上記音素列を認識辞書(音素の組み合わせと単語との対応を記録したデータベースである)を使って単語に置き換え、さらに言語モデル(単語の組み合わせの妥当性を記録したデータベースである)を使って最も妥当な単語候補を選択する。単語音声認識の従来技術として例えば、連続音声認識システムや大語彙連続音声認識システムを挙げることができるが、これらに限定されるものでない。大語彙連続音声認識システムは例えば、上記非特許文献2「The IBM Attila Speech Recognition Toolkit」に従う技術でありうる。
ステップ406において、音声検索装置は、ステップ405での単語音声認識の認識結果Rwを取得する。単語音声認識結果Rwは単語列である。当該単語列は例えば、タイムインデックス付き単語列でありうる。タイムインデックス付き単語列は例えば、{単語w,開始時間b,終了時間e}の繰り返しフォーマットでありうる。
音声検索装置は、単語音声認識の認識結果として、N−bestの認識結果又は1−bestの認識結果を出力しうる。
音声検索装置は、上記取得した単語音声認識結果Rwを例えば、当該音声検索装置が書き込み可能な記憶媒体(例えば、図1Aに示す記憶媒体(108)又は図1Bに示す記憶媒体(128))に書き込み、又は、当該音声検索装置がネットワークを介してアクセス可能な他の装置(例えば、コンピュータ又はネットワーク・アタッチト・ストレージ)にアップロードしうる。
ステップ407において、音声検索装置は、音声データから単語列と音素列又は音節列とを生成する処理を終了する。引き続き、当該音声検索装置が上記音声データに対してキーワード検索を行う場合には、当該音声検索装置は処理を図4Bのフローチャートに示す処理に進める。
本発明の実施態様において使用されうる単語列及び音素列又は音節列を音声検索装置(101、121)以外の電子装置(例えば、コンピュータ)が生成する場合についての説明は、上記ステップ401〜407の処理の主体である音声検索装置を当該電子装置と読み替えられたい。
図4Bは、本発明の実施態様に従い、上記音声データに対してキーワード検索(その一部に、N−best認識結果を用いる例)を行う為のフローチャートを示す。なお、図4Bに示すフローチャートの説明において、「音声検索装置」という場合には、音声検索装置(101)又は音声検索装置(121)を意味する。
ステップ411において、音声検索装置は、図4Aのステップ402に示す上記音声データに対してキーワード検索を行う処理を開始する。
ステップ412において、音声検索装置は、キーワード検索を行う為の検索キーワードを、例えば検索キーワードを格納した記憶媒体から取得する。当該検索キーワードは、検索キーワードの文字列Kwと、検索対象であるキーワードの音素列又は音節列Ksとを含む。検索キーワードの文字列は例えば、ユーザが入力したテキスト・データ、又はユーザが入力した音声データをテキスト化したテキスト・データでありうる。
ステップ413において、音声検索装置は、検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の単語音声認識結果Rwを取得する。音声検索装置は、当該単語音声認識結果Rwを例えば当該音声検索装置が読み取り可能な記憶媒体(例えば、図1Aに示す記憶媒体(108)又は図1Bに示す記憶媒体(128))から読み取り、又は、当該音声検索装置がネットワークを介してアクセス可能な他の装置(例えば、コンピュータ又はネットワーク・アタッチト・ストレージ)からダウンロードする。
ステップ414において、音声検索装置は、ステップ412で取得した検索キーワードの文字列Kwと、ステップ413で取得した単語列としての単語音声認識結果Rwである文字列とを比較する。すなわち、音声検索装置は、上記検索キーワードの文字列Kwと、ステップ413で取得した単語音声認識結果Rwである文字列の少なくとも一部とが一致するかを判断する。
ステップ415において、音声検索装置は、上記ステップ414の比較結果として、文字列Kwと上記単語音声認識結果Rwである文字列の少なくとも一部とが一致することに応じて、処理をステップ416に進める。すなわち、ステップ415において、音声検索装置は、単語音声認識結果Rwのうち、文字列Kwに一致する区間Dを見つける。一方、音声検索装置は、文字列Kwと単語音声認識結果Rw中の文字列とが一致しないことに応じて、処理をステップ422に進める。
ステップ416において、音声検索装置は、音声データ中の、文字列Kwと単語音声認識結果Rwである文字列の少なくとも一部とが一致する1以上の候補区間D(tb,te)を検出する。tbは、一致する文字列が音声データ中に出現する当該区間Dの開始時間を示し、teは、一致する文字列が音声データ中に出現する当該区間Dの終了時間を示す。
ステップ417は、任意のステップである。ステップ417において、音声検索装置は、ステップ416で検出した区間D(tb,te)の開始時間及び終了時間の両端又は一方を所定時間分それぞれ前後に広げて、区間D’(tb−δ,te+δ)とする。δの値は任意の時間である。−δと+δは、同じ値であってもよく、又は異なる値であってもよい。区間D(tb,te)の開始時間及び終了時間の両端又は一方を所定時間分をそれぞれ前後に拡張するのは、下記ステップ419での検索キーワード中の音素列又は音節列Ksとの比較の精度を高める為である。
ステップ418において、音声検索装置は、区間D(tb,te)(ステップ417が実行されなかった場合)又は区間D’(tb−δ,te+δ)において認識された音素音声認識結果Rsを取得する。音素音声認識結果Rsは、検索対象の音声データに対して行われた音素音声認識結果のうちから上記区間D又は区間D’に関連付けられた音素音声認識結果を取り出したもの、又は、上記区間D又は区間D’に関連付けられた音声データに対して直接的に音素音声認識が行われた音素音声認識結果でありうる。
ステップ419において、音声検索装置は、ステップ412で取得した検索キーワード中の音素列又は音節列Ksと、ステップ418で取得した音素列としての音素音声認識結果Rsとを比較する。すなわち、音声検索装置は、上記検索キーワード中の音素列又は音節列Ksと、ステップ416で検出した区間D又はステップ417で取得した区間D’に関連付けられた音素音声認識結果Rsである音素列の少なくとも一部とが一致するかを判断する。
ステップ420において、音声検索装置は、上記ステップ419の比較結果として、上記検索キーワード中の音素列又は音節列Ksと上記音素音声認識結果Rsである音素列の少なくとも一部とが一致することに応じて、処理をステップ421に進める。すなわち、ステップ420において、音声検索装置は、N−best音素音声認識結果の順位nの音素音声認識結果Rsのうち、音素列Ksに一致する部分を見つける。なお、n == Nは、nがNに達するまで、という最大N回のループを示す。一方、音声検索装置は、Rs[n] == Ks || n == N でないことに応じて、N−best音素音声認識結果の順位nを+1インクリメントして、処理をステップ419に戻し、ステップ419及びステップ420を繰り返す。
ステップ421において、音声検索装置は、音素音声認識結果のステップ419及びステップ420における比較による区間D又は区間D’の確からしさを示す指標であるスコアCs(0<=1)を例えば、下記式に従い算出する。
Cs=1−log10(n)/log10(N)
上記区間D又は区間D’の確からしさの評価はN−best音素音声認識結果Rs(例えば、Rs[1…N])で表される)と、上記検索キーワード中の音素列又は音節列Ksとの一致する順の順位n(1<n<N;Nは、N−bestの最大数である)を用いて評価する方法(上記図2B及び図3Bを参照)に基づく。
例えば、N−bestのN(最大数)が1000であるとすると、例えば、
n=1 のとき、Cs= 1-0/3 = 1
n=10 のとき、Cs= 1-1/3 = 0.66
n=100 のとき、Cs= 1-2/3 = 0.50
n=800 のとき、Cs= 1-2.9/3 = 0.03
である。従って、順位nが高くなるほど、Csの値も高くなる。すなわち、Csが1に近い値であるほど、その区間の信頼度が高い。
ステップ422において、音声検索装置は、ステップ415の比較の結果からの処理の場合(単語音声認識結果において一致する区間がない場合、Cw=0)又はステップ420の比較の結果からの処理の場合(単語音声認識結果において一致する区間がある場合、Cw=1)のCwの値と、上記算出したCsとを加算して、スコアCを算出する。
例えば、N−bestの順位が下位(例えば、n=800)の音素列に一致した場合には、たとえ、上記検索キーワード中の音素列又は音節列Ksと音素音声認識結果Rs[800]とが一致したとしても、スコアCは、Cw(=1)+Cs(=0.03)=1.03であるために、その区間の信頼度は低いということになる。一方、例えば、N−bestの順位が上位(例えば、n=1)の音素列に一致した場合には、スコアCは、Cw(=1)+Cs(=1)=2であるために、その区間の信頼度は高いということになる。
ステップ423において、音声検索装置は、ステップ422で算出したスコアCが所定の閾値Tを超えるかを判断する。音声検索装置は、スコアCが所定の閾値Tを超えることに応じて、処理をステップ424に進める。一方、音声検索装置は、スコアCが所定の閾値Tを超えないことに応じて、処理を終了ステップ425に進める。
閾値Tは、ユーザが適宜指定することが可能である。信頼度の高い区間を出力対象としたい場合には、閾値Tは2に近い値に設定されうる。一方、信頼度は多少犠牲にしても、数多くの区間を検出したい場合には、閾値Tは1に近い値に設定されうる。
ステップ424において、音声検索装置は、所定の閾値Tを超えることに応じて、所定の閾値を超える区間を出力する。当該出力された区間が、音声データ中の、検索キーワードが特定された区間である。当該区間の出力は例えば、上記区間D若しくは上記区間D’の時間情報、上記区間D若しくは上記区間D’の音声データ(音素データが付随していてもよい)、又は、上記区間D若しくは上記区間D’の音声データをテキスト化したテキスト・データを出力することでありうる。
ステップ425において、音声検索装置は、上記音声データに対してキーワード検索を行う処理を終了する。
図4Cは、本発明の実施態様に従い、上記音声データに対してキーワード検索(その一部に、1−best認識結果及び編集距離を用いる例)を行う為のフローチャートを示す。なお、図4Cに示すフローチャートの説明において、「音声検索装置」という場合には、音声検索装置(101)又は音声検索装置(121)を意味する。
ステップ431〜ステップ438それぞれは、図4Bに示すステップ411〜ステップ418と同じである。従って、ステップ431〜ステップ438それぞれについての説明は、ステップ411〜ステップ418の説明を参照されたい。
ステップ439において、音声検索装置は、上記検索キーワード中の音素列又は音節列Ksと、上記ステップ438で取得した区間D(tb,te)(ステップ417が実行されなかった場合)又は区間D’(tb−δ,te+δ)において認識された音素音声認識結果Rsとの編集距離を算出する(上記図2C及び上記図3Cを参照)。当該編集距離は、レーベンシュタイン距離とも呼ばれる。当該編集距離は例えば、動的計画法によるマッチング(DPマッチング;Dynamic Programming Matching)を使用して計算しうる。編集距離が短いほど音素列の類似性が高くなるので、その区間の信頼度が高いといえる。
ステップ441において、音声検索装置は、音素音声認識結果の区間D又は区間D’の確からしさを示す指標であるスコアCs(0<=1)を例えば、下記式に従いステップ439で算出した編集距離から算出する。
Cs=1−編集距離(Ks,Rs)/長さ(Ks)
ステップ442において、音声検索装置は、ステップ435の比較の結果からの処理の場合(単語音声認識結果において一致する区間がない場合、Cw=0)又はステップ439からの経路からの処理の場合(単語音声認識結果において一致する区間がある場合、Cw=1)のCwの値と、上記算出したCsとを加算して、スコアCを算出する。
ステップ443〜ステップ445それぞれは、図4Bに示すステップ423〜ステップ425と同じである。従って、ステップ443〜ステップ445それぞれについての説明は、ステップ423〜ステップ425の説明を参照されたい。
図5A及び図5Bそれぞれは、図1A又は図1Bに従うハードウェア構成を好ましくは備えており、図4A又は図4Bに示すフローチャートに従って本発明の実施態様を実施するコンピュータの機能ブロック図の一例を示した図である。以下において、「部」は「手段」とも読み替えてもよい。
図5Aに示す実施態様では、音声検索装置(501)それ自体が、検索対象である音声データに対して単語音声認識及び音素音声認識それぞれを行わない例である。一方、図5Bに示す実施態様では、音声検索装置(503)それ自体が、音検索対象である声データに対して単語音声認識及び音素音声認識それぞれを行う例である。
図5Aに示す実施態様を以下に説明する。
音声検索装置(501)は、図1Aに示す音声検索装置(101)又は図1Bに示す音声検索装置(121)に対応しうる。
音声検索装置(501)は、図4Bに示すフローチャートの各ステップを実行する装置でありうる。
上記した通り、図5Aに示す実施態様では、音声検索装置(501)それ自体が、音声データ(551)に対して単語音声認識及び音素音声認識それぞれを行わない。従って、音声データ(551)に対して単語音声認識及び音素音声認識それぞれは、音声検索装置(501)以外の電子装置(502)によって処理される。
音声検索装置(501)は、図1Aに示す音声検索装置(101)に示されている構成、例えばCPU(102)、メイン・メモリ(103)、及びディスク(108)を備えている。代替的には、音声検索装置(501)は、図1Bに示す音声検索装置(121)に示されている構成、例えばCPU(132)、メイン・メモリ(133)、及びディスク(128)を備えている。
音声検索装置(501)は、キーワード取得部(511)、区間検出部(512)、評価値算出部(513)、及び区間出力部(514)を備えている。
キーワード取得部(511)は、文字列と音素列又は音節列とで指定された検索キーワードを、例えば当該検索キーワードを格納した記憶媒体(例えば、キーワード・データベース)(521)から取得する。
また、キーワード取得部(511)は、上記検索キーワードの文字列を区間検出部(512)に提供し、且つ、上記検索キーワード中の音素列又は音節列を評価値算出部(513)に提供しうる。
キーワード取得部(511)は、図4Bに示すステップ412及び図4Cに示すステップ432を実行しうる。
区間検出部(512)は、検索対象の音声データ(551)に対して行われた単語を認識単位とする単語音声認識の認識結果である文字列(561,531)と、上記キーワード(521)の上記文字列とを比較して、一致する1以上の区間を検出する。区間検出部(512)は、単語音声認識の認識結果である文字列(単語列である)を例えば、当該認識結果である文字列を格納した記憶媒体(例えば、単語列データベース)(531)から取得しうる。
区間検出部(512)は、図4Bに示すステップ413〜417及び図4Cに示すステップ433〜437を実行しうる。
評価値算出部(513)は、区間検出部(512)が検出した1以上の区間それぞれにおいて認識された音素列又は音節列であり且つ上記音声データ(551)に対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である上記音素列又は上記音節列を、上記キーワードの上記音素列又は音節列を用いて評価し、上記1以上の区間それぞれの評価値を算出する。評価値算出部(513)は、上記区間それぞれにおいて認識された音素列又は音節列を例えば、当該音素列又は音節列を格納した記憶媒体(例えば、音素列データベース)(532)から取得しうる。
また、評価値算出部(513)は、区間検出部(512)が検出した1以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のN−best認識結果である音素列又は音節列と、上記キーワードの上記音素列とを比較して、一致する上記N−best認識結果の順位を評価値としうる。
また、評価値算出部(513)は、区間検出部(512)が検出した1以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識の1−best認識結果である音素列又は音節列と、上記キーワードの上記音素列又は音節列との編集距離を評価値としうる。
評価値算出部(513)は、図4Bに示すステップ418〜421、並びに図4Cに示すステップ438〜439及びステップ441を実行しうる。
区間出力部(514)は、評価値算出部(513)が算出した評価値が所定の閾値を超える区間を出力する。
区間出力部(514)は、図4Bに示すステップ422〜423及び図4Cに示すステップ442〜443を実行しうる。
電子装置(502)は、図4Aに示すフローチャートの各ステップを実行する装置でありうる。
電子装置(502)は、単語音声認識部(541)及び音素音声認識部(542)を備えている。
単語音声認識部(541)は、検索対象の音声データ(551)に対して単語を認識単位とする単語音声認識を行う。単語音声認識部(541)は、単語音声認識の認識結果である文字列(単語列である)を例えば、当該電子装置(502)がアクセス可能な、単語列を格納した記憶媒体(例えば、単語列データベース)(561)に格納しうる。単語列を格納した記憶媒体(561)は、単語列を格納した記憶媒体(531)と同じであってもよい。または、単語列を格納した記憶媒体(561)をコピーしたものが単語列を格納した記憶媒体(531)でありうる。
音素音声認識部(542)は、検索対象の音声データ(551)に対して音素又は音節を認識単位とする音素音声認識を行う。音素音声認識部(542)は、音素音声認識の認識結果である音素列又は音節列を例えば、当該電子装置(502)がアクセス可能な、音素列を格納した記憶媒体(例えば、音素列データベース)(562)に格納しうる。音素列を格納した記憶媒体(562)は、音素列を格納した記憶媒体(532)と同じであってもよい。または、単語列を格納した記憶媒体(562)をコピーしたものが単語列を格納した記憶媒体(532)でありうる。
以下に、図5Bに示す実施態様を説明する。
音声検索装置(503)は、図1Aに示す音声検索装置(101)又は図1Bに示す音声検索装置(121)に対応しうる。
音声検索装置(503)は、図4Aに示すフローチャートの各ステップ、及び、図4Bに示すフローチャートの各ステップを実行する装置でありうる。
上記した通り、音声検索装置(503)は、音声検索装置(503)それ自体が、音声データ(581)に対して単語音声認識及び音素音声認識それぞれを行う。
音声検索装置(503)は、図1Aに示す音声検索装置(101)に示されている構成、例えばCPU(102)、メイン・メモリ(103)、及びディスク(108)を備えている。代替的には、音声検索装置(503)は、図1Bに示す音声検索装置(121)に示されている構成、例えばCPU(132)、メイン・メモリ(133)、及びディスク(128)を備えている。
音声検索装置(503)は、キーワード取得部(571)、区間検出部(572)、評価値算出部(573)及び区間出力部(574)、並びに、単語音声認識部(575)及び音素音声認識部(576)を備えている。
図5Bに示すキーワード取得部(571)、区間検出部(572)、評価値算出部(573)、及び区間出力部(574)それぞれは、図5Aに示すキーワード取得部(511)、区間検出部(512)、評価値算出部(513)、及び区間出力部(514)に対応する。従って、キーワード取得部(571)、区間検出部(572)、評価値算出部(573)及び区間出力部(574)それぞれについての説明は、キーワード取得部(511)、区間検出部(512)、評価値算出部(513)、及び区間出力部(514)それぞれの説明を参照されたい。なお、上記説明において、図5Aに示す音声データ(551)、検索キーワードを格納した記憶媒体(521)、単語列を格納した記憶媒体(561)、及び音素列を格納した記憶媒体(562)それぞれは、図5Bに示す音声データ(581)、検索キーワードを格納した記憶媒体(582)、単語列を格納した記憶媒体(591)、及び音素列を格納した記憶媒体(592)とそれぞれ読み替えられたい。
音声検索装置(503)は、さらに、単語音声認識部(575)及び音素音声認識部(576)を備えている。
単語音声認識部(575)は、図5Aに示す単語音声認識部(541)と同様に、検索対象の音声データ(581)に対して単語を認識単位とする単語音声認識を行う。単語音声認識部(575)は、単語音声認識の認識結果である文字列(単語列である)を例えば、当該音声検索装置(503)がアクセス可能な、単語列を格納した記憶媒体(531)に格納しうる。
音素音声認識部(576)は、図5Aに示す音素音声認識部(542)と同様に、検索対象の音声データ(581)に対して音素又は音節を認識単位とする音素音声認識を行いうる。音素音声認識部(576)は、音素音声認識の認識結果である音素列又は音節列を例えば、当該音声検索装置(503)がアクセス可能な、音素列を格納した記憶媒体(592)に格納しうる。
また、音素音声認識部(576)は、区間検出部(572)が検出した1以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行いうる。
図6は、本発明の実施態様及び従来技術にそれぞれ従い、テスト音声データに対してキーワード検索実験を行った結果として得られた検索性能を示す。
[実施例]
(1)本発明の実施態様(図4A及び図4Bに示すフローチャート)に従い、テスト音声データに対する検索キーワードの検索実験を行った。
(2)テスト条件は、下記の通りである。
1)テスト音声データのファイル数:110ファイル(日本語である);
2)通話時間:29.6時間;
3)発話区間数:21Kセグメント
4)検索キーワード:長さ2〜10語(4〜20音素)の検索キーワード38種類、なお、各キーワードには、文字列と音素列とが与えられている。当該キーワードの文字列及び音素列の一例は下記の通りである:文字列「伊勢丹」(日本語,漢字)と音素列「isetan」;文字列「ありがとうございます」(日本語,平仮名)と音素列「arigatougozaimasu」。
5)上記テスト・データ中、単語の認識結果は、179K単語、含まれるキーワード数は3248個であることが判っている。
(3)単語音声認識結果(1−best)が検索キーワードの文字列に一致し、さらに当該一致する区間において認識された音素音声認識結果(N−best(N=1000,NはN−bestのnが取り得る最大値を意味する))が検索キーワード中の音素列に一致する区間を出力した。
(4)実験結果を図6に示すグラフ(601,[C](e)〜(f))及び表(602,(e)及び(f))に示す。(e)はn=1,(f)はn=1000の場合である。
グラフ(601)は、再現率を横軸とし、適合率を縦軸としたものである。また、グラフ(601)中、プロット点横の各数字1〜1000は、N−bestのNを表す。
表(602)は、グラフ(601)中、(a)〜(b)は比較例1におけるプロット、(c)〜(d)は比較例2におけるプロット,(e),及び(f)それぞれにおける再現率、適合率、及びF値(F-measure,F尺度ともいう)を示す。
F値は、適合率と再現率との調和平均であり、図6に示す式(603)に従い算出される。F値が高いほど、検索の性能が良いことを意味する。
[比較例1]
(1)従来技術である単語音声認識のみに従い、テスト音声データに対する検索キーワードの検索実験を行った。
(2)テスト条件1)〜5)は、上記実施例と同じである。
(3)単語音声認識結果N−best(N=1000)が検索キーワードの文字列に一致する区間を出力した。
(4)実験結果を図6に示すグラフ(611,[A](a)〜(b))及び表(602,(a)及び(b))に示す。(a)はn=1,(b)はn=1000の場合である。
[比較例2]
(1)従来技術である音素音声認識のみに従い、テスト音声データに対する検索キーワードの検索実験を行った。
(2)テスト条件1)〜5)は、上記実施例と同じである。
(3)音素音声認識結果N−best(N=1000)が検索キーワード中の音素列に一致する区間を出力した。
(4)実験結果を図6に示すグラフ(612,[B](c)〜(d))及び表(602,(c)及び(d))に示す。(c)はn=1,(d)はn=1000の場合である。
比較例1(単語音声認識)の単語音声認識でカバーできる範囲は[A]であり、比較例2(音素音声認識)の音素音声認識でカバーできる範囲は[B]である。一方、実施例でカバーできる範囲は[C]であり、適合率((e)n=1の場合に90%,(f)n=1000の場合に82%)が比較例1((a)及び(b))及び比較例2((c)及び(d))のいずれの適合率に対しても高かった。
また、図6に示すグラフ(601)に示されるように、N−bestのnの値を調整することにより、実施例の結果(e)〜(f)の区間において、連続的に適合率及び再現率を変化させることができる。また、本実施例ではN=1000としているが、Nを∞とし、閾値Tに対応するnの値を∞とすると、(f)から(a)の区間(621)においても連続的に適合率及び再現率を変化させた結果を得ることができる。ステップ421に示されるようにnによってスコアCsが計算され、ステップ422によってスコアCが計算される。グラフ(601)に示されるように、nの値と適合率の間には負の相関があり、nの値と再現率の間には正の相関があることがわかる。すなわち、閾値Tを大きくすれば再現率が低く適合率が高くなり、閾値Tを小さくすれば再現率が高く適合率が低くなるという関係が成り立っている。
比較例1の[A](a)〜(b)では、F値は0.789(n=1)→0.486(n=1000)に、及び比較例2の[B](c)〜(d)では、F値は0.506(n=1)→0.279(n=1000)に、いずれも大きく変化する。一方、実施例の[C](e)〜(f)では、F値は0.715(n=1)→0.768(n=1000)であり、検索性能がNの値によってほとんど変化しない。さらに、検索性能がNの値によってほとんど変化しないことは、検索において検索性能がパラメータに依存しないという、本手法の高い有用性を示す。

Claims (11)

  1. 音声検索方法であって、音声検索装置が、
    文字列と音素列又は音節列とで指定されたキーワードを取得するステップと、
    検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の認識結果である文字列と、前記キーワードの前記文字列とを比較して、一致する1以上の区間を検出するステップと、
    前記検出した1以上の区間それぞれにおいて認識された音素列又は音節列であり且つ前記音声データに対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である前記音素列又は前記音節列を、前記キーワードの前記音素列又は音節列を用いて評価し、前記1以上の区間それぞれの評価値を算出するステップと、
    前記算出した評価値が所定の閾値を超える区間を出力するステップと
    を実行することを含み、
    前記算出するステップが、
    前記検出した1以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のN−best認識結果である音素列又は音節列と、前記キーワードの前記音素列とを比較して、一致する前記N−best認識結果の順位を評価値とするステップ
    を含む、音声検索方法。
  2. 前記区間それぞれに関連付けられた音素列又は音節列が、前記区間の前後を所定の時間分広げた区間に関連付けられた音素列又は音節列である、請求項に記載の音声検索方法。
  3. 前記音声検索装置が、
    前記検索対象の音声データに対して単語を認識単位とする単語音声認識を行うステップ
    をさらに実行することを含む、請求項1または2に記載の音声検索方法。
  4. 前記音声検索装置が、
    前記検出した1以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップ
    をさらに実行することを含む、請求項1〜3のいずれか一項に記載の音声検索方法。
  5. 前記音声検索装置が、
    前記検索対象の音声データに対して音素又は音節を認識単位とする音素音声認識を行うステップ
    をさらに実行することを含む、請求項1〜3のいずれか一項に記載の音声検索方法。
  6. 音声検索装置であって、
    文字列と音素列又は音節列とで指定されたキーワードを取得するキーワード取得部と、
    検索対象の音声データに対して行われた単語を認識単位とする単語音声認識の認識結果である文字列と、前記キーワードの前記文字列とを比較して、一致する1以上の区間を検出する区間検出部と、
    前記検出した1以上の区間それぞれにおいて認識された音素列又は音節列であり且つ前記音声データに対して行われた音素又は音節を認識単位とする音素音声認識の認識結果である前記音素列又は前記音節列を、前記キーワードの前記音素列又は音節列を用いて評価し、前記1以上の区間それぞれの評価値を算出する評価値算出部と
    前記算出した評価値が所定の閾値を超える区間を出力する区間出力部と
    を備えており、
    前記評価値算出部が、
    前記検出した1以上の区間それぞれに関連付けられた音声データに対して行われた音素又は音節を認識単位とする音素音声認識のN−best認識結果である音素列又は音節列と、前記キーワードの前記音素列とを比較して、一致する前記N−best認識結果の順位を評価値とする、
    音声検索装置。
  7. 前記区間それぞれに関連付けられた音素列又は音節列が、前記区間の前後を所定の時間分広げた区間に関連付けられた音素列又は音節列である、請求項に記載の音声検索装置。
  8. 前記検索対象の音声データに対して単語を認識単位とする単語音声認識を行う単語音声認識部
    をさらに備えている、請求項6または7に記載の音声検索装置。
  9. 前記検出した1以上の区間それぞれに関連付けられた音声データに対して音素又は音節を認識単位とする音素音声認識を行う音素音声認識部
    をさらに備えている、請求項6〜8のいずれか一項に記載の音声検索装置。
  10. 前記検索対象の音声データに対して音素又は音節を認識単位とする音素音声認識を行う音素音声認識部
    をさらに備えている、請求項6〜8のいずれか一項に記載の音声検索装置。
  11. 音声検索装置用のプログラムであって、前記音声検索装置に、請求項1〜5のいずれか一項に記載の音声検索方法の各ステップを実行させる、前記プログラム。
JP2014087325A 2014-04-21 2014-04-21 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム Active JP6400936B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2014087325A JP6400936B2 (ja) 2014-04-21 2014-04-21 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
US14/692,105 US9378736B2 (en) 2014-04-21 2015-04-21 Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
US14/745,912 US9373328B2 (en) 2014-04-21 2015-06-22 Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
US15/167,683 US9626958B2 (en) 2014-04-21 2016-05-27 Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus
US15/167,522 US9626957B2 (en) 2014-04-21 2016-05-27 Speech retrieval method, speech retrieval apparatus, and program for speech retrieval apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014087325A JP6400936B2 (ja) 2014-04-21 2014-04-21 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム

Publications (2)

Publication Number Publication Date
JP2015206906A JP2015206906A (ja) 2015-11-19
JP6400936B2 true JP6400936B2 (ja) 2018-10-03

Family

ID=54322538

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014087325A Active JP6400936B2 (ja) 2014-04-21 2014-04-21 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム

Country Status (2)

Country Link
US (4) US9378736B2 (ja)
JP (1) JP6400936B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10141010B1 (en) * 2015-10-01 2018-11-27 Google Llc Automatic censoring of objectionable song lyrics in audio
CN105653517A (zh) * 2015-11-05 2016-06-08 乐视致新电子科技(天津)有限公司 一种识别率确定方法及装置
CN105810191B (zh) * 2016-03-08 2019-11-29 江苏信息职业技术学院 融合韵律信息的汉语方言辨识方法
WO2018061824A1 (ja) * 2016-09-29 2018-04-05 日本電気株式会社 情報処理装置、情報処理方法およびプログラム記録媒体
FR3058558B1 (fr) * 2016-11-07 2020-01-10 Pw Group Procede et systeme d'authentification par biometrie vocale d'un utilisateur
CN107679033B (zh) * 2017-09-11 2021-12-14 百度在线网络技术(北京)有限公司 文本断句位置识别方法和装置
US10546062B2 (en) * 2017-11-15 2020-01-28 International Business Machines Corporation Phonetic patterns for fuzzy matching in natural language processing
JP7049629B2 (ja) * 2018-02-13 2022-04-07 株式会社フュートレック 音声秘匿装置および音声秘匿プログラム
CN108962282B (zh) * 2018-06-19 2021-07-13 京北方信息技术股份有限公司 语音检测分析方法、装置、计算机设备及存储介质
CN109036464B (zh) * 2018-09-17 2022-02-22 腾讯科技(深圳)有限公司 发音检错方法、装置、设备及存储介质
CN111754995B (zh) * 2019-03-29 2024-06-04 株式会社东芝 阈值调整装置、阈值调整方法以及记录介质
CN110825844A (zh) * 2019-10-21 2020-02-21 拉扎斯网络科技(上海)有限公司 语音检索方法、装置、可读存储介质和电子设备
CN111667828B (zh) * 2020-05-28 2021-09-21 北京百度网讯科技有限公司 语音识别方法和装置、电子设备和存储介质
EP3989219B1 (en) * 2020-10-22 2023-11-22 Thomson Licensing Method for detecting an audio adversarial attack with respect to a voice command processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
CN112614510B (zh) * 2020-12-23 2024-04-30 北京猿力未来科技有限公司 一种音频质量评估方法及装置
KR102486120B1 (ko) 2022-10-13 2023-01-09 (주)액션파워 음성 신호와 연관된 컨텐츠를 결정하는 방법

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU777693B2 (en) * 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
DE60036486T2 (de) * 1999-10-28 2008-06-12 Canon K.K. Methode und apparat zum prüfen von musterübereinstimmungen
US7310600B1 (en) * 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US7177795B1 (en) * 1999-11-10 2007-02-13 International Business Machines Corporation Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems
US7263484B1 (en) * 2000-03-04 2007-08-28 Georgia Tech Research Corporation Phonetic searching
US7120575B2 (en) * 2000-04-08 2006-10-10 International Business Machines Corporation Method and system for the automatic segmentation of an audio stream into semantic or syntactic units
GB0023930D0 (en) * 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
JP3686934B2 (ja) * 2001-01-25 2005-08-24 独立行政法人産業技術総合研究所 異種環境音声データの音声検索方法及び装置
US7089188B2 (en) * 2002-03-27 2006-08-08 Hewlett-Packard Development Company, L.P. Method to expand inputs for word or document searching
US6907397B2 (en) * 2002-09-16 2005-06-14 Matsushita Electric Industrial Co., Ltd. System and method of media file access and retrieval using speech recognition
US7725318B2 (en) * 2004-07-30 2010-05-25 Nice Systems Inc. System and method for improving the accuracy of audio searching
US7912699B1 (en) * 2004-08-23 2011-03-22 At&T Intellectual Property Ii, L.P. System and method of lattice-based search for spoken utterance retrieval
US7809568B2 (en) * 2005-11-08 2010-10-05 Microsoft Corporation Indexing and searching speech with text meta-data
US7831428B2 (en) * 2005-11-09 2010-11-09 Microsoft Corporation Speech index pruning
US7831425B2 (en) * 2005-12-15 2010-11-09 Microsoft Corporation Time-anchored posterior indexing of speech
NO325191B1 (no) * 2005-12-30 2008-02-18 Tandberg Telecom As Sokbar multimedia strom
US7640161B2 (en) * 2006-05-12 2009-12-29 Nexidia Inc. Wordspotting system
US20080059170A1 (en) * 2006-08-31 2008-03-06 Sony Ericsson Mobile Communications Ab System and method for searching based on audio search criteria
US7991613B2 (en) * 2006-09-29 2011-08-02 Verint Americas Inc. Analyzing audio components and generating text with integrated additional session information
US20080162125A1 (en) * 2006-12-28 2008-07-03 Motorola, Inc. Method and apparatus for language independent voice indexing and searching
JP5072415B2 (ja) 2007-04-10 2012-11-14 三菱電機株式会社 音声検索装置
JP5235210B2 (ja) * 2007-04-13 2013-07-10 マサチューセッツ インスティテュート オブ テクノロジー 音声データ検索装置、音声データ検索方法、音声データ検索プログラム、及びコンピュータが読取可能な音声データ検索プログラムを内蔵したコンピュータが使用可能な媒体
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
JP4887264B2 (ja) 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
US7949527B2 (en) * 2007-12-19 2011-05-24 Nexidia, Inc. Multiresolution searching
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
WO2010098209A1 (ja) * 2009-02-26 2010-09-02 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
JP5296598B2 (ja) * 2009-04-30 2013-09-25 日本放送協会 音声情報抽出装置
US8321218B2 (en) * 2009-06-19 2012-11-27 L.N.T.S. Linguistech Solutions Ltd Searching in audio speech
CN102023995B (zh) * 2009-09-22 2013-01-30 株式会社理光 语音检索设备和语音检索方法
JP5621783B2 (ja) * 2009-12-10 2014-11-12 日本電気株式会社 音声認識システム、音声認識方法および音声認識プログラム
JP5590549B2 (ja) * 2010-02-23 2014-09-17 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
JP5533042B2 (ja) * 2010-03-04 2014-06-25 富士通株式会社 音声検索装置、音声検索方法、プログラム及び記録媒体
JP2012063611A (ja) * 2010-09-16 2012-03-29 Nec Corp 音声認識結果検索装置、音声認識結果検索方法および音声認識結果検索プログラム
US9332319B2 (en) * 2010-09-27 2016-05-03 Unisys Corporation Amalgamating multimedia transcripts for closed captioning from a plurality of text to speech conversions
US8831947B2 (en) * 2010-11-07 2014-09-09 Nice Systems Ltd. Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice
US9311914B2 (en) * 2012-09-03 2016-04-12 Nice-Systems Ltd Method and apparatus for enhanced phonetic indexing and search
US9542936B2 (en) * 2012-12-29 2017-01-10 Genesys Telecommunications Laboratories, Inc. Fast out-of-vocabulary search in automatic speech recognition systems
US20150058006A1 (en) * 2013-08-23 2015-02-26 Xerox Corporation Phonetic alignment for user-agent dialogue recognition
JP6011565B2 (ja) * 2014-03-05 2016-10-19 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
JP5888356B2 (ja) * 2014-03-05 2016-03-22 カシオ計算機株式会社 音声検索装置、音声検索方法及びプログラム
US9196243B2 (en) * 2014-03-31 2015-11-24 International Business Machines Corporation Method and system for efficient spoken term detection using confusion networks

Also Published As

Publication number Publication date
US20160275939A1 (en) 2016-09-22
US20160275940A1 (en) 2016-09-22
JP2015206906A (ja) 2015-11-19
US9373328B2 (en) 2016-06-21
US9626958B2 (en) 2017-04-18
US9378736B2 (en) 2016-06-28
US20150302848A1 (en) 2015-10-22
US9626957B2 (en) 2017-04-18
US20150310860A1 (en) 2015-10-29

Similar Documents

Publication Publication Date Title
JP6400936B2 (ja) 音声検索方法、音声検索装置、並びに、音声検索装置用のプログラム
CN107039040B (zh) 语音识别系统
CN107016994B (zh) 语音识别的方法及装置
EP3360129B1 (en) Re-recognizing speech with external data sources
US9558741B2 (en) Systems and methods for speech recognition
CN107967916B (zh) 确定语音关系
JP5207642B2 (ja) 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム
US8504367B2 (en) Speech retrieval apparatus and speech retrieval method
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US9767790B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
JP6726354B2 (ja) 訂正済みタームを使用する音響モデルトレーニング
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
US8271282B2 (en) Voice recognition apparatus, voice recognition method and recording medium
EP2685452A1 (en) Method of recognizing speech and electronic device thereof
JP4930379B2 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
US9754024B2 (en) Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium
US10909972B2 (en) Spoken language understanding using dynamic vocabulary
US20150340035A1 (en) Automated generation of phonemic lexicon for voice activated cockpit management systems
WO2014183411A1 (en) Method, apparatus and speech synthesis system for classifying unvoiced and voiced sound
KR102167157B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
JP2006243673A5 (ja)
JP6276513B2 (ja) 音声認識装置および音声認識プログラム
US20170263250A1 (en) Voice processing system and voice processing method
JPWO2018229937A1 (ja) 意図推定装置及び意図推定方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170421

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20170421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170427

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180427

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180724

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180813

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180906

R150 Certificate of patent or registration of utility model

Ref document number: 6400936

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250