JP5360414B2 - キーワード抽出モデル学習システム、方法およびプログラム - Google Patents

キーワード抽出モデル学習システム、方法およびプログラム Download PDF

Info

Publication number
JP5360414B2
JP5360414B2 JP2009517922A JP2009517922A JP5360414B2 JP 5360414 B2 JP5360414 B2 JP 5360414B2 JP 2009517922 A JP2009517922 A JP 2009517922A JP 2009517922 A JP2009517922 A JP 2009517922A JP 5360414 B2 JP5360414 B2 JP 5360414B2
Authority
JP
Japan
Prior art keywords
keyword
keyword extraction
input
extraction model
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009517922A
Other languages
English (en)
Other versions
JPWO2008150003A1 (ja
Inventor
健太郎 長友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009517922A priority Critical patent/JP5360414B2/ja
Publication of JPWO2008150003A1 publication Critical patent/JPWO2008150003A1/ja
Application granted granted Critical
Publication of JP5360414B2 publication Critical patent/JP5360414B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Description

本発明は、音声からキーワードを抽出するキーワード抽出モデルを学習するキーワード抽出モデル学習システム、キーワード抽出システム、情報入力システム、情報検索システム、キーワード抽出モデル学習方法、キーワード抽出方法、情報入力方法、情報検索方法およびキーワード抽出モデル学習プログラムに関し、特に、連携先システムへの入力とその入力に対応する音声を用いて学習を行うことを特徴とするキーワード抽出モデル学習システム、キーワード抽出システム、情報入力システム、情報検索システム、キーワード抽出モデル学習方法、キーワード抽出方法、情報入力方法、情報検索方法およびキーワード抽出モデル学習プログラムに関する。
単語や句(単語の集合)、文などを入力とする情報入力システムや情報検索システムに対して、そのフロントエンドとして音声認識技術を用いる場合に、音声データから特定の語句等を抽出する「キーワード抽出」技術がよく用いられる。以下、便宜上、単語だけでなく句や文などについても、それがキーワード抽出手段のバックエンドとなるシステム(以下、連携先システムと表記する。)に対する有意な入力として抽出の対象となる場合には、すべて「キーワード」と表現する。
従来のキーワード抽出技術は、大きく2種類の方法で実現されてきた。1つは「ワードスポッティング」と呼ばれる方式であって、予め定められたキーワードが音声中に含まれているか否かを判断する方式である。もう1つの方式は、いわゆる音声認識(音声からテキストへの変換)によって音声全体をいったんテキストに変換した後に、テキスト処理技術を用いてキーワードを抽出する方式(以下、テキスト処理方式と表記する。)である。
R.C.Rose and D.B.Paul,”a hidden Markov model based keyword recognition system”,in Proc.ICASSP 90,pp.129−132.(以下非特許文献1と記す)には、「ワードスポッティング」方式の一例が記載されている。非特許文献1には、予め列挙されたキーワードのそれぞれについて、入力音声の一部がキーワードと同じであるか否かを推定するモデルを用意し、用意したモデルを並列につなぐ(キーワードネットワーク)ことが記載されている。
また、非特許文献1には、これと並行して非キーワード用のモデルを並べる(フィラーネットワーク)ことが記載されている。入力音声が、並列に置かれたモデルのうち、キーワードモデルの何れかに対して尤度最大となれば、そのキーワードが現れたとみなすことができる。また、非特許文献1に記載された方式では、さらにキーワード/フィラーネットワークの全体と並列にバックグラウンドモデルを配置する。バックグラウンドモデルは、あらゆる音声について言語的なバイアスが掛かりにくいように設計される。そして、キーワードモデルに対する尤度とバックグラウンドモデルに対する尤度の差を用いることで、正規化された尤度を用いた抽出結果の棄却判定を行う。上記のような構造とすることで、入力音声の音響的な条件に対してロバストなキーワード抽出が可能となる。
キーワードモデルでは、キーワードに類似した非キーワードを吸収する問題がある。そのため、フィラーモデルや、バックグラウンドモデルによる尤度正規化処理が提案された。特に、フィラーの追加は手軽なチューニング手段として知られている。例えば、キーワード「和歌山」のモデルが「おかやま」という発声を誤抽出する場合には「おかやま」をフィラーとして追加するなどの方法が知られている。
例えば、特開2005−092310号公報(以下特許文献1と記す)には、フィラーとしてキーワードに類似した単語を大語彙辞書から見つけて追加する技法が開示されている。また、「パーソナルロボットPaPeRoの音声認識インタフェース」(岩沢,第13回AIチャレンジ研究会資料,p.17−22、以下非特許文献2と記す)には、フィラーを音節連続辞書から生成する技法が記載されている。
実際には、個々のフィラーモデルはそこまで厳密に動作するわけではない。例えば、「岡山」と「和歌山」の二つのモデルに対して「わかやま」という発声を入力しても「岡山」モデルの尤度が高くなるケースはあり得る。これは、「和歌山」のモデルが入力された「わかやま」という音声に対して十分に学習されていないケースで起こる問題である。このような場合は、非特許文献2に記載された技法と同様に、「わかやま」という音声によりよくマッチするフィラー(例えば「あかやま」)を「和歌山」の変形として追加するなどのアドホックな対応手段が知られている。
キーワード抽出の別の実現方式であるテキスト処理方式は、いわゆるディクテーション技術の普及とともに利用されるようになってきた方式である。基本的には、大語彙連続音声認識技術と文字列照合技術の単純な組み合わせで構成可能な為、キーワード抽出よりもその後段の処理に主眼が置かれる場合などで多用される傾向がある。近年では、ディクテーション技術の認識精度が向上したこともあり、より高度な自然言語処理技術との組み合わせが提案されている。例えば、D.Miller,R.Schwartz,R.Weischedel and R.Stone,”Named entity extraction from broadcast news”,in Proc.the DARPA Broadcast News Workshop.Herndon,Virginia,1999,pp.37−40.(以下非特許文献3と記す)には、ディクテーション技術と自然言語処理技術の1つである固有表現(Named Entity)抽出を組み合わせることが記載されている。固有表現は、例えば、「人名」や「地名」のようなある種の構造を持ったテキストであり、ここではキーワードの一種と考える。
しかし、上述した従来技術では、キーワード抽出処理を利用する連携先システムにとって適切なキーワードを事前に収集することが困難であって、非常に手間が掛かる。
従来技術は、キーワードを如何に精度よく抽出するかに主眼を置いたものが主流であった。従来技術では、抽出の対象となるキーワードは既知または容易に収集可能であると仮定されている。例えば、非特許文献2に記載された技術のように、抽出された個々のキーワードに対するバックエンド側の処理が明確に規定されているケースでは、上記の仮定が成り立つ。しかし、実世界で稼動する連携先システムの多くは、非常に多くの入力を扱うことが可能であり、抽出の対象となるキーワードもまた多種多様となる。連携先システムが利用するために必要十分なキーワードを収集できなければ、キーワード抽出精度が如何に高くとも、実用的なキーワード抽出システムとは言えない。
キーワード収集が困難な第1の理由は、キーワード抽出システムをどのようなシステムと連携させるかによって、収集すべきキーワードがまったく異なってくることである。例えば、チケット予約システムと連携させるのであれば、イベントの名称やチケット番号を抽出する必要がある。一方、電車の乗り換え案内システムと連携させるのであれば、駅名を収集しなければならない。
キーワード収集が困難な第2の理由は、キーワードそのものだけを収集するだけでは十分でないということである。実現方式にもよるが、十分なフィラー(非キーワード)を収集しなければキーワード抽出精度の低いシステムとなってしまう。
キーワード収集が困難な第3の理由は、そもそも十分なキーワードの収集が事実上不可能なケースもあることである。例えば、キーワード抽出技術を、Google(登録商標)やYahoo!(登録商標)のような汎用検索システムと連携させる場合には、あらゆる単語がキーワードたり得る。こうした場合は、抽出可能なキーワードを何らかの条件で制約するしかない。よく用いられるのは、名詞のみ抽出するといった品詞等の単語属性に基づく制限である。しかし、実際には、ユーザは形容詞も検索したいと考えるかも知れない。また、同じ名詞でも検索される頻度が著しく低いためにキーワードとして抽出される機会がない、或いは、別の単語として抽出されることも考えられる。
キーワード収集が困難な第4の理由は、収集されたキーワードが実際にそのままの形で発話されるとは限らない、ということである。キーワードの収集は、通常、連携先システムが受理可能なキーワードをベースとして行われる。前述した例で言えば、チケット予約システムと連携させる場合には、チケット予約システムが受理可能なキーワード(チケット番号やイベント名)を収集する。ところが、利用者は、例えばイベント名に関して、チケット予約システムが意図しない略称を発話する可能性がある。ある利用者はチケット番号を2桁ごとに区切って発話し、別の利用者は1桁ごとに「の」を間に挟んで読み上げるかも知れない。
収集されたキーワードが実際にそのままの形で発話されるとは限らないという問題は、フィラー(非キーワード)の問題と近い。しかし、従来技術(例えば、特許文献1や非特許文献2参照。)で解決できないことは明らかである。なぜなら、こうしたキーワードの発話表現(キーワードの発話における変形表現)が、元のキーワードと音響的にごく近いという仮定は成り立たない為である。
本発明の目的は、連携先システムへの入力に適したキーワードを抽出することができるキーワード抽出システムを構築する為に必要なビルディングブロックとして、上述した用途に利用可能なキーワード抽出モデルを容易に構築可能なキーワード抽出モデル学習システム、キーワード抽出システム、情報入力システム、情報検索システム、キーワード抽出モデル学習方法、キーワード抽出方法、情報入力方法、情報検索方法およびキーワード抽出モデル学習プログラムを提供することである。
本発明の他の目的は、キーワードの発話における変形表現(発話表現)を抽出することができるキーワード抽出モデルを容易に構築可能なキーワード抽出モデル学習システム、キーワード抽出システム、情報入力システム、情報検索システム、キーワード抽出モデル学習方法、キーワード抽出方法、情報入力方法、情報検索方法およびキーワード抽出モデル学習プログラムを提供することにある。
本発明によるキーワード抽出モデル学習システムは、音声からキーワードを抽出するキーワード抽出モデルを学習するキーワード抽出モデル学習システムであって、連携システムへの入力と、前記入力に対応する音声とを用いて学習を行うキーワード抽出モデル学習手段を備えたことを特徴とする。
連携システムへの入力は少なくともテキスト情報を含んでもよい。
連携システムへの入力に対応する音声は、前記連携システムへの入力に対応する一部と、対応しない一部のいずれをも含んでもよい。
キーワード抽出モデル学習手段は、連携システムへの入力に対して高い尤度を返すようにキーワード抽出モデルを学習してもよい。
キーワード抽出モデル学習手段は、連携システムへの入力に対応する音声または対応する音声の一部に対して高い尤度を返すようにキーワード抽出モデルを学習してもよい。
キーワード抽出モデル学習手段は、連携システムへの入力に対応しない音声または対応しない音声の一部に対して低い尤度を返すようにキーワード抽出モデルを学習してもよい。
キーワード抽出モデル学習手段は、連携システムへのある入力に対応する音声を、該連携システムへの入力と類似した別の入力に関するモデル学習の学習データとして用いてもよい。
キーワード抽出モデル学習手段は、連携システムへのある入力に対応する音声を、該連携システムへの入力と類似しない別の入力に関するモデル学習の負例の学習データとして用いてもよい。
キーワード抽出モデル学習手段(例えば、キーワード抽出モデル学習手段210)は、予め与えられた制約に基づいて連携システムへの入力を1つ以上のクラスタに分類し、各クラスタに関する学習をまとめて行ってもよい。
キーワード抽出モデル学習手段(例えば、キーワード抽出モデル学習手段210)が学習するキーワード抽出モデルは、ある音声の一部がいずれかのキーワードの発話であるかの尤度を返すキーワード区間モデル(例えば、キーワード区間抽出モデル)と、ある音声の一部が各キーワードの発話であるかの尤度を返すキーワード認識モデルと、の2種類のモデルからなり、前記キーワード抽出モデル学習手段は、前記2種類のモデルを学習してもよい。
連携システムへの入力と、前記入力に対応する可能性の高い音声の一区間を見つけ出し、この区間の音声と、を用いて学習を行うキーワード抽出モデル学習手段を備えてもよい。
キーワード抽出モデル学習手段は、入力に対応する音声または前記入力に対応する音声の書き起こしを用いて学習を行ってもよい。
本発明によるキーワード抽出システムは、請求項1から請求項11のうちのいずれか1項に記載のキーワード抽出モデル学習手段によって学習したキーワード抽出モデルを用いることを特徴とする。
本発明による情報入力システム(例えば、連携先システム120)は、請求項12に記載のキーワード抽出システムを用いることを特徴とする。
本発明による情報検索システム(例えば、連携先システム120)は、請求項12に記載のキーワード抽出システムを用いることを特徴とする。
本発明によるキーワード抽出モデル学習方法は、音声からキーワードを抽出するキーワード抽出モデルを学習するキーワード抽出モデル学習方法であって、連携システムへの入力と、前記入力に対応する音声とを用いて学習を行うキーワード抽出モデル学習ステップを含むことを特徴とする。
連携システムへの入力は少なくともテキスト情報を含んでもよい。
連携システムへの入力に対応する音声は、前記連携システムへの入力に対応する一部と、対応しない一部のいずれをも含んでもよい。
キーワード抽出モデル学習ステップで、連携システムへの入力に対して高い尤度を返すようにキーワード抽出モデルを学習してもよい。
キーワード抽出モデル学習ステップで、連携システムへの入力に対応する音声または対応する音声の一部に対して高い尤度を返すようにキーワード抽出モデルを学習してもよい。
キーワード抽出モデル学習ステップで、連携システムへの入力に対応しない音声または対応しない音声の一部に対して低い尤度を返すようにキーワード抽出モデルを学習してもよい。
キーワード抽出モデル学習ステップで、連携システムへのある入力に対応する音声を、該連携システムへの入力と類似した別の入力に関するモデル学習の学習データとして用いてもよい。
キーワード抽出モデル学習ステップで、連携システムへのある入力に対応する音声を、該連携システムへの入力と類似しない別の入力に関するモデル学習の負例の学習データとして用いてもよい。
キーワード抽出モデル学習ステップで、予め与えられた制約に基づいて連携システムへの入力を1つ以上のクラスタに分類し、各クラスタに関する学習をまとめて行ってもよい。
キーワード抽出モデル学習ステップで学習するキーワード抽出モデルは、ある音声の一部がいずれかのキーワードの発話であるかの尤度を返すキーワード区間モデルと、ある音声の一部が各キーワードの発話であるかの尤度を返すキーワード認識モデルと、の2種類のモデルからなり、前記キーワード抽出モデル学習ステップで、前記2種類のモデルを学習してもよい。
キーワード抽出モデル学習ステップで、連携システムへの入力と、前記入力に対応する可能性の高い音声の一区間を見つけ出し、この区間の音声と、を用いて学習を行ってもよい。
キーワード抽出モデル学習ステップで、入力に対応する音声または前記入力に対応する音声の書き起こしを用いて学習を行ってもよい。
本発明によるキーワード抽出方法は、請求項15から請求項25のうちのいずれか1項に記載のキーワード抽出モデル学習方法で学習したキーワード抽出モデルを用いることを特徴とする。
本発明による情報入力方法は、請求項26に記載のキーワード抽出方法を用いることを特徴とする。
本発明による情報検索方法は、請求項26に記載のキーワード抽出方法を用いることを特徴とする。
本発明によるキーワード抽出モデル学習プログラムは、音声からキーワードを抽出するキーワード抽出モデルを学習するためのキーワード抽出モデル学習プログラムであって、コンピュータに、連携システムへの入力と、前記入力に対応する音声とを用いて学習を行うキーワード抽出モデル学習処理を実行させることを特徴とする。
連携システムへの入力は少なくともテキスト情報を含んでもよい。
連携システムへの入力に対応する音声は、前記連携システムへの入力に対応する一部と、対応しない一部のいずれをも含んでもよい。
コンピュータに、キーワード抽出モデル学習処理で、連携システムへの入力に対して高い尤度を返すようにキーワード抽出モデルを学習する処理を実行させてもよい。
コンピュータに、キーワード抽出モデル学習処理で、連携システムへの入力に対応する音声または対応する音声の一部に対して高い尤度を返すようにキーワード抽出モデルを学習する処理を実行させてもよい。
コンピュータに、キーワード抽出モデル学習処理で、連携システムへの入力に対応しない音声または対応しない音声の一部に対して低い尤度を返すようにキーワード抽出モデルを学習する処理を実行させてもよい。
コンピュータに、キーワード抽出モデル学習処理で、連携システムへのある入力に対応する音声を、該連携システムへの入力と類似した別の入力に関するモデル学習の学習データとして用いる処理を実行させてもよい。
コンピュータに、キーワード抽出モデル学習処理で、連携システムへのある入力に対応する音声を、該連携システムへの入力と類似しない別の入力に関するモデル学習の負例の学習データとして用いる処理を実行させてもよい。
コンピュータに、キーワード抽出モデル学習処理で、予め与えられた制約に基づいて連携システムへの入力を1つ以上のクラスタに分類し、各クラスタに関する学習をまとめて行う処理を実行させてもよい。
キーワード抽出モデル学習処理で学習するキーワード抽出モデルは、ある音声の一部がいずれかのキーワードの発話であるかの尤度を返すキーワード区間モデルと、ある音声の一部が各キーワードの発話であるかの尤度を返すキーワード認識モデルと、の2種類のモデルからなり、コンピュータに、前記キーワード抽出モデル学習処理で、前記2種類のモデルを学習する処理を実行させてもよい。
コンピュータに、キーワード抽出モデル学習処理で、連携システムへの入力と、前記入力に対応する可能性の高い音声の一区間を見つけ出し、この区間の音声と、を用いて学習を行う処理を実行させてもよい。
コンピュータに、キーワード抽出モデル学習処理で、入力に対応する音声または前記入力に対応する音声の書き起こしを用いて学習を行う処理を実行させてもよい。
本発明によるキーワード抽出システムの好ましい一態様は、例えば、キーワード抽出手段と、そのキーワード抽出手段で利用可能なキーワード抽出モデルを学習するキーワード抽出モデル学習手段とを備え、キーワード抽出モデル学習手段は、キーワード抽出システムの連携先システムへの入力テキストと、その入力に対応する音声またはその音声の書き起こしとを学習データとして受け取り、連携先システムへの入力テキストと、その音声または書き起こし、さらに、それらから推測される未知のテキストとをキーワードとみなし、入力音声のある区間が該キーワードの何れかである尤度を返すキーワード抽出モデルを、キーワードごとに、あるいは、類似するキーワードの集合ごとに学習するよう動作することを特徴とする。
またさらに、本発明によるキーワード抽出システムの好ましい他の一態様は、例えば、キーワード抽出モデルが高い尤度を示した音声に対して、そのキーワード抽出モデルが包含しているいくつかのキーワードのうちのいずれであるかを識別するキーワード識別手段を備え、キーワード抽出モデル学習手段は、キーワード抽出モデルの学習で利用したものと同じ学習データを用いて、キーワード識別手段で利用可能なキーワード識別モデルを学習するよう動作することを特徴とする。
このような構成を採用し、連携先システムへの入力およびそれに対応する音声での表現(発話表現)とそれらの変形をキーワードとして抽出することによって、本発明の目的を達成することができる。
本発明によれば、連携先システムに適したキーワード抽出を容易に実現できるようになる。その理由は、そもそも連携先システムはキーワード抽出の結果として得られたテキストを入力として受け付けるのであるから、逆に、連携先システムが入力として受理可能なテキストをキーワードとして抽出するようにすれば、少なくとも連携先システムにとって有意であると期待されるデータをキーワード抽出の対象とすることができるためである。
付け加えると、こうしたテキストはキーワード抽出に頼らずともキー入力等で連携先システムに入力することも可能である。実際、音声入力と並行してキー入力やマウスによる多岐選択による入力I/F(インタフェース)をフロントエンドに設けることは一般的に行われている。
また、本発明のキーワード抽出によれば、発話表現されたキーワードを抽出することが出来る。連携先システムへの入力(すなわちキーワード)に対応した音声が得られれば、その音声から、キーワードがどのような発話表現に変形し得るのかというサンプルが得られる。このサンプルを用いることで、キーワードとその発話表現の両方に対応したキーワード抽出モデルを構築できる。
ここで問題になるのは、学習データとして連携先システムへの入力とその音声だけを用いるとすると、十分な柔軟性を持つモデルが構築できないという点である。本発明のキーワード抽出システムでは、連携先システムへの入力とその音声(およびその書き起こし)をただ抽出対象キーワードとして収集するのみではなく、これらからのさらなる変形をも受理可能なキーワード抽出モデルを学習することによって、この問題に対処することができる。
図1は第1の実施の形態の構成例を示すブロック図である。
図2は第1の実施の形態におけるキーワード抽出手段の動作の例を示すフローチャートである。
図3は第1の実施の形態におけるキーワード抽出モデル学習手段の動作の例を示すフローチャートである。
図4は第2の実施の形態の構成例を示すブロック図である。
図5は第2の実施の形態におけるキーワード抽出システムの動作の例を示すフローチャートである。
図6は第2の実施の形態におけるキーワード抽出モデル学習手段の動作の例を示すフローチャートである。
図7は本実施例によるキーワード抽出システムの構成例を示すブロック図である。
実施の形態1
以下、本発明の第1の実施の形態を図面を参照して説明する。図1は、第1の実施の形態の構成例を示すブロック図である。図1に示す第1の実施の形態は、音声からキーワードを抽出するキーワード抽出システム100と、キーワード抽出モデル学習手段110と、抽出されたキーワードを入力として所定の動作を行う連携先システム120とを備える。
キーワード抽出システム100は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。キーワード抽出システム100は、キーワード抽出手段101と、キーワード抽出モデル学習手段110によって学習されたキーワード抽出モデル102とを含む。キーワード抽出モデル102は、音声からキーワードを抽出するモデルである。
キーワード抽出手段101は、入力した音声データに対してキーワード抽出モデル102を適用する。キーワード抽出手段101は、キーワード抽出モデル102が、音声データのある区間に対して所定の閾値以上の尤度を返したならば、その音声の区間をキーワード区間とし、キーワード抽出モデルがその区間に対して最尤として返却したキーワードを出力する。
キーワード抽出手段101が、音声の一区間に対して抽出したとして出力するキーワードは、唯1つだけとは限らない。まったく同じ音声の一区間について、複数のキーワードを出力してもよい。この場合、キーワード抽出手段101は、連携先システム120に、キーワードだけでなく、各々の抽出キーワードに対する尤度等の付加情報をあわせて出力すると好適である。
キーワード抽出モデル学習手段110は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。キーワード抽出モデル学習手段110は、連携先システム120への入力と、音声データと、これらを対応付ける情報(対応情報)とを入力する。キーワード抽出モデル学習手段110は、後述するアルゴリズムに従って、連携先システム120への入力をキーワードとみなし、連携先システム120への入力、音声データおよび対応情報に基づいて、音声データに含まれるキーワードまたはその発話表現を推定するキーワード抽出モデル102を学習する。なお、本実施の形態において、キーワード抽出モデル学習システムは、キーワード抽出モデル学習手段110と、連携先システム120への入力、音声データおよびこれらを対応付ける情報を入力する手段と、キーワード抽出モデル102への出力を行う手段とによって実現される。
連携先システム120は、具体的には、プログラムに従って動作するパーソナルコンピュータ等の情報処理装置によって実現される。連携先システム120は、音声からキーワードを抽出するキーワード抽出手段101またはその他の手段から、テキストをベースとする入力を受け、定められた何らかの動作を行う。連携先システム120は、例えば、キーワード抽出システム100によって入力されたキーワードに基づいて各種処理を実行する情報入力システムであってもよい。また、連携先システム120は、例えば、キーワード抽出システム100によって入力されたキーワードに基づいて情報検索を行う情報検索システムであってもよい。
ここで、連携先システム120への入力とは、例えば、連携先システム120に入力されたテキスト情報である。連携先システム120に、複数の異なる属性を含む入力があった場合、その属性を含めてキーワード抽出モデル学習手段110への入力として良い。また、連携先システム120への入力と音声データとを対応付ける情報とは、例えば、音声中のどの区間がその入力に対応する発話区間であるかを示す時間情報や、その発話の書き起こしなどを言う。
キーワード抽出モデル102は、所定の手続きに基づいて音声から取り出された特徴量に対して、所定の手続きに基づいた照合処理を掛けることにより、音声のある区間に既知のキーワードのいずれかまたはそのキーワードの発話表現のいずれかが含まれているかどうかを算出することができる。キーワード抽出モデル102を、各キーワード、キーワードの発話表現について1つずつ用意しても良いし、それらの全部または一部を同時にモデル化できるような単一のモデルまたは複数個のモデルを用いるようにしても良い。
キーワード抽出モデル102は、少なくとも以下の条件を満たす。すなわち、キーワード抽出モデル102は、所定の手続きで音声の一区間を与えられると、予め与えられた一つまたは複数のキーワードのいずれかに一致する文字列、音素列、音響特徴量列に対して、高い尤度を示す何らかの値を返す。
また、キーワード抽出モデル102は、あるキーワードに対応する発話表現として与えられた文字列、音素列、音響特徴量列に対しても、そのキーワードに準じる高い尤度を示す何らかの値を返す。
さらに、キーワード抽出モデル102は、既知のキーワードやキーワードに対応する発話表現の文字列、音素列、音響特徴量列のどれとも一致しないが、いずれかに類似する文字列、音素列、音響特徴量列に対しては、そのキーワードおよびキーワードの発話表現に準じるやや高い尤度を示す何らかの値を返す。
そして、キーワード抽出モデル102は、上記のいずれにも当てはまらない文字列、音素列、音響特徴量列に対しては低い尤度を返す。
キーワード抽出手段101が音声の一区間に対して用いる尤度は、何れかのキーワードに関するキーワード抽出モデル102の尤度(=距離)を直接用いるだけでなく、何らかの手段で正規化処理を施しても良い。また、キーワード抽出手段101は、閾値による棄却処理を、何らかの棄却手段を用いて行う構成としても良い。例えば、ある時間内に発話された複数の音声に対する抽出キーワードが、ある特定の組であるか否かに基づいて棄却するなどの手段を用いることができる。また、キーワード抽出モデル学習手段110は、連携システムへの入力に対して高い尤度を返すようにキーワード抽出モデルを学習してもよい。
次に、図面を参照して第1の実施の形態の動作について説明する。まず、第1の実施の形態のキーワード抽出手段101の動作について説明する。図2は、第1の実施の形態におけるキーワード抽出手段101の動作の例を示すフローチャートである。なお、キーワード抽出モデル102として、予め初期のキーワード抽出モデルまたはキーワード抽出モデル学習手段110によって学習されたキーワード抽出モデルが与えられているものとする。
キーワード抽出手段101の動作は、キーワード抽出モデル102をどのように選ぶかによって具体的な挙動が異なる。
キーワード抽出モデル102が、音響特徴量列に対する尤度を算出するモデルである場合、キーワード抽出手段101は、入力された音声信号から音響特徴量を算出する(ステップS101)。次に、キーワード抽出手段101は、ステップS105に移行し、ステップS101で求めた入力音響特徴量列をキーワード抽出モデル102に入力する。
キーワード抽出モデル102が、音素列に対する尤度を算出するモデルである場合、キーワード抽出手段101は、入力された音声信号から音響特徴量を算出する(ステップS101)。次に、キーワード抽出手段101は、求めた入力音響特徴量列が、既知のどのような音素に近いかを計算する(ステップS102)。そうしてステップS105に移行し、求めた音素列と音素列の各音素に対する入力音響特徴量の距離をキーワード抽出モデル102に入力する。
キーワード抽出モデル102が、文字列に対する尤度を算出するモデルである場合、キーワード抽出手段101は、入力された音声信号から音響特徴量を算出する(ステップS101)。音響特徴量として、パワー、Δパワー、ΔΔ、ピッチ、ケプストラム、Δケプストラムなどを利用することができる。次に、キーワード抽出手段101は、求めた入力音響特徴量列が、既知のどのような音素に近いかを計算する(ステップS102)。さらに、ステップS102で求めた音素列が既知のどのような音節列または単語列に近いかを計算する(ステップS103)。そうしてステップS105に移行し、求めた音節列または単語列とそれらに対する尤度とをキーワード抽出モデル102に入力する。
キーワード抽出モデル102が、さらにメタな特徴量に対する尤度を算出するモデルである場合は、ステップS101〜S103の後、そのメタ特徴量を求めて(ステップS104)、キーワード抽出モデル102に入力する(ステップS105)。メタ特徴量とは、例えば、品詞情報、直近のキーワード抽出結果、音素事後確率、単語事後確率など、ステップS103で求めた1つ又は複数の文字列を元に算出される特徴量を言う。
キーワード抽出モデル102は、上記の音響特徴量列、音素列、文字列、メタ特徴量列のうちの1つ以上の組み合わせに対する尤度を算出するモデルであっても良い。その場合、キーワード抽出手段101は、ステップS101〜S104を適宜経由した後、必要な情報をステップS105で入力する。
また、キーワード抽出手段101は、ステップS101〜S105の処理を必要に応じてパイプライン実行するようにしても良い。パイプライン実行することで、キーワード抽出処理時間(スループット)を短縮できるとともに、適当な枝狩り処理を併用することで、不要な計算を削減することができる。例えば、音素列Xから文字列Yが得られるとき、音素列Xに対する尤度が所定の枝狩り閾値を下回ったなら、文字列Yの尤度計算をスキップできる。
キーワード抽出手段101は、ステップS101〜S104で入力音声から必要な情報を算出したのち、ステップS105で、キーワード抽出モデル102との照合を行う。その結果、音声の一区間に対するキーワード抽出モデル102による尤度が算出される。
ステップS106において、キーワード抽出手段101は、ステップS105で算出された尤度の棄却判定を行う。例えば、キーワード抽出手段101は、キーワード抽出モデル102が代表するいずれかのキーワードに対して、所定の閾値を超える尤度が得られた場合、そのキーワードが抽出されたとみなす。
次に、第1の実施の形態のキーワード抽出モデル学習手段110の動作について説明する。図3は、第1の実施の形態におけるキーワード抽出モデル学習手段110の動作の例を示すフローチャートである。
キーワード抽出モデル学習手段110の動作は、キーワード抽出モデル102をどのように選ぶかによって具体的な挙動が異なる。
まず、ステップS201で、初期状態のキーワード抽出モデル(初期モデル)が与えられる。なお、初期状態のキーワード抽出モデルは、例えば、プログラムの初期値として与えられる。事前に、キーワードの一部またはすべてが既知である場合、または、キーワードとなる可能性の高いテキスト情報がある程度入手可能である場合は、それらを用いて初期モデルを構築する。そのような情報がまったく入手できない場合は、空の初期モデルを構築する。初期モデルとして、既に学習済みのモデルが与えられてもよく、この場合、キーワード抽出モデル学習手段110は、新たな学習データに対する追加の学習を行う。
キーワード抽出モデル学習手段110は、学習データとして、連携先システムへの入力と、それに対応する音声データと、それらを対応付ける情報とを受け取る(ステップS202)。以下、キーワード抽出モデル学習手段110に学習データとして渡された情報であって、連携先システム120に入力されたテキスト情報を、正則キーワード(キーワードの正則な表現とみなすため)と記述する。ここで、音声は、正則キーワードに対応する発話そのものであるか、少なくともそのような発話を含むものとする。また、正則キーワードと対応する音声を対応付ける情報とは、例えば、音声信号中のどの区間が正則キーワードの発話表現であるかを示す時刻情報などを含む。あるいは、正則キーワードの発話表現の書き起こし文字列を含んでも良い。
ある正則キーワードと、その正則キーワードに対応付けられた音声との組は、正則キーワードに応じて自動的に見つけ出すこともできる。例えば、キーワード抽出モデルが十分に学習されているなら、ある正則キーワードを出力しうる発話音声のバリエーションが得られている。そこで、その正則キーワードに対応する音声区間が含まれていることが分かっている音声を与えれば、キーワード抽出モデル学習手段110は、この音声の中から、前記バリエーションの何れかの発話が行われている区間を抽出することができる。このようにして得られた学習データ対は、音声の音響的揺らぎ(例えば、話者性に由来するものなど)に対する頑健性を高めるための学習データとして利用できる。
キーワード抽出モデル102が、音響特徴量列に対する尤度を算出するモデルである場合、キーワード抽出モデル学習手段110は、学習データとして入力された音声信号から音響特徴量を算出する(ステップS203)。キーワード抽出モデル102が、音素列に対する尤度を算出するモデルである場合、キーワード抽出モデル学習手段110は、音響特徴量を元に音素列とその距離を算出する(ステップS204)。さらに、キーワード抽出モデル102が、文字列に対する尤度を算出するモデルである場合は、キーワード抽出モデル学習手段110は、この音素列を元に文字列とその尤度を算出する(ステップS205)。またさらに、キーワード抽出モデル102が、メタ特徴量に対する尤度を算出するモデルである場合は、キーワード抽出モデル学習手段110は、文字列を元にメタ特徴量とその尤度を算出する(ステップS206)。
ステップS203〜S206の処理の詳細は、キーワード抽出手段101におけるステップS101〜104の処理と同様である。
次に、キーワード抽出モデル学習手段110は、正則キーワードの発話表現に対応する音声の一区間に関して求められた音響特徴量、音素列、文字列、メタ特徴量などを受理するよう、キーワード抽出モデル102を拡張する(ステップS207)。このとき、拡張の元となった発話表現ではなく、その発話表現の正則キーワードがマッチしたとして照合結果を出力するようにモデルを拡張する。
例えば、各正則キーワードをHMMでモデル化して並列に並べたキーワードネットワーク型のモデルの場合、ある正則キーワードの発話表現に対するHMMは、もとの正則キーワードのHMMと並列に配置される。ここで、この発話表現HMMを通過した場合の尤度は、その正則キーワードHMMを通過した場合の尤度として扱われる。また、木構造辞書に基づくキーワード抽出モデルである場合、木構造の葉にいずれの正則キーワードであるかを示す情報が付加される。ここで、ある正則キーワードの発話表現に対応する葉に付加される情報として、その発話表現のもととなる正則キーワードを示す情報が与えられる。
キーワード抽出モデル102が、文字列などの非音響的入力に対する尤度を算出するものである場合は、さらにステップS208で、学習データとして与えられた正則キーワードそのものに対するモデルの拡張を行ってよい。
文字列に基づくモデルであれば、正則キーワード文字列をそのまま用いる。音節列に基づくモデルであれば、正則キーワードに任意の読み付け処理を施した後に学習を行う。読み付け処理には、例えば認識用辞書を利用する方法や、汎用の形態素解析器を利用する方法が考えられる。音素列に基づくモデルであれば、同様に所定の方法で読み情報を音素列に変換する。メタ情報に関しては、正則キーワードから取得できる範囲のものであれば、同様に学習を行う。例えば、品詞や文字種は正則キーワードから取り出せる情報であるので、こうしたメタ情報を用いるモデルであれば、正則キーワード自体も学習できる。一方で、例えば、事後確率を用いるモデルでは、正則キーワードに対する学習はできない。また、正則キーワードと音声データとを対応付ける情報が、その正則キーワードの発話表現の書き起こし文字列を含む場合は、この文字列表現も受理できるようにキーワード抽出モデル102を拡張しても良い。これが可能な条件と手続きは正則キーワードに準じる。
ステップS209で、さらに、キーワード抽出モデル学習手段110は、ステップS207におけるモデルの拡張を他のキーワードに対して伝播可能である場合、モデルの拡張を伝播する。例えば、キーワード抽出モデル102が木構造辞書に基づくモデルである場合、木のある深さの節からいくつか先の深さの節へ至るε遷移が追加されたならば、その深さまでの構造を共有する部分木に対してこの拡張を伝播する(共有される)。さらに、このε遷移が結ぶ節と同じ深さにある節間に同様のε遷移を追加しても良い。
学習データとして与えられた正則キーワードが、単に文字列を与えるだけでなく追加の属性を持つ場合、ステップS209での拡張の伝播は、同一属性または近似する属性を持つキーワードに限定して行っても良い。例えば、連携先システム120がチケット番号とアーティスト名を入力として受け付けるのであれば、新たに学習データとしてチケット番号とその発話表現が与えられた場合、キーワード抽出モデル102のアーティスト名に関する部分には上記の伝播が行われないようにしてもよい。
ステップS207、S208およびS209におけるモデルの拡張では、単に学習データを受理するようモデルを拡張するだけでなく、その拡張によって受理可能となった正則キーワードおよび発話表現に対して与えられる尤度を調整する為の手続きを同時に行ってもよい。例えば、木構造辞書に基づくモデルでは、ステップS208で拡張された枝に対してはペナルティなしとし、ステップS207で拡張された枝には軽いペナルティを付加し、さらにステップS209で拡張された枝には重いペナルティを付加する、といった処理を行ってもよい。
キーワード抽出モデル102が、正例だけでなく負例も用いて学習されるようなものである場合、キーワード抽出モデル学習手段110は、ステップS210で、正則キーワードの発話に対応しない音声部位に対するグラフの学習を行うようにしても良い。例えば、キーワードネットワーク型モデルで、各キーワードに対してSVMのような識別器を用意するようなモデルである場合、負例、すなわち正則キーワードに対応しない音声から得られた音響特徴量、音素列、文字列、メタ特徴量を与えることで、誤って非キーワードに対して高い尤度を返すようなモデルとなることを防ぐことができる。
また、正則キーワードに対応する発話や正則キーワード自体も、負例としてステップS210で利用できることがある。例えば、キーワードA用の学習データとして入力された正則キーワードとその発話表現および音声データは、別のキーワードBに対する識別器の負例として利用できる。
最後に、ステップS211で、キーワード抽出モデル学習手段110は、ステップS207、S208およびS209におけるモデルの拡張に応じて、モデルの既存部位に対する再計算などが必要である場合、再計算を行う。例えば、単語N−gramに基づくキーワード抽出モデル102では、モデル拡張(すなわち、未知のN単語組の頻度が増す)の後にバックオフ係数などの再計算が必要になる。
その後、キーワード抽出システム100は、キーワード抽出モデル学習手段110によって学習されたキーワード抽出モデル102を用いて、キーワードの抽出処理を実行することになる。上記の処理が実行され、連携先システム120への入力や、その発話表現も考慮してキーワード抽出モデルが学習されるに従って、キーワード抽出の精度を向上させることができる。
実施の形態2
次に、本発明の第2の実施の形態を図面を参照して説明する。図4は、第2の実施の形態の構成例を示すブロック図である。図4に示す第2の実施の形態は、音声からキーワードを抽出するキーワード抽出システム200と、キーワード抽出モデル学習手段210と、抽出されたキーワードを入力として所定の動作を行う連携先システム220と備える。
キーワード抽出システム200は、キーワードに対応する発話区間を切り出すキーワード区間抽出手段201と、切り出されたキーワード発話区間に対していずれのキーワードに対する発話であるかを判別するキーワード認識手段202と、キーワード抽出モデル学習手段210によって学習されたキーワード区間抽出モデル203と、同じくキーワード抽出モデル学習手段210によって学習されたキーワード認識モデル204とを含む。
次に、図面を参照して第2の実施の形態の動作について説明する。図5は、第2の実施の形態におけるキーワード抽出システムの動作の例を示すフローチャートである。キーワード区間抽出手段201は、入力された音声データに対してキーワード区間抽出モデル203を適用する。そして、適用したキーワード区間抽出モデル203が、音声データのある区間に対して所定の閾値以上の尤度を返したならば、キーワード区間抽出手段201は、その音声の区間をキーワード区間として特定する(ステップS301)。
さらに、キーワード認識手段202は、特定されたキーワード区間に対して、キーワード認識モデル204を用いたキーワード認識処理を実行し、キーワード認識モデルがその音声区間に対して最尤として返却したキーワードを出力する(ステップS302)。
図6は、第2の実施の形態におけるキーワード抽出モデル学習手段210の動作の例を示すフローチャートである。キーワード抽出モデル学習手段210は、連携先システム220への入力と、音声データと、これらを対応付ける情報とを入力する(ステップS401)。
キーワード抽出モデル学習手段210は、連携先システム220への入力をキーワードとみなし、キーワードまたはその発話表現が音声のある区間に出現したか否かを推定するキーワード区間抽出モデル203を学習する(ステップS402)。すなわち、キーワード区間抽出モデル203は、音声データがキーワードを含むか否かを示す尤度を返すモデルである。
また同時に、同じ入力を用いて、あるキーワードに対応する音声の一区間に対して、その音声区間に何れかのキーワードまたはその発話表現が現れたか認識するキーワード認識モデル204をあわせて学習する(ステップS403)。すなわち、キーワード認識モデルは、音声データがどのキーワードを含むかを示す尤度を返すモデルである。
キーワード抽出モデル学習手段210の2つのモデルの学習手順は、第1の実施の形態のキーワード抽出モデル学習手段110の学習手順とほぼ同じである。
キーワード区間抽出手段201は、キーワード区間抽出モデル203が返却する情報に基づいて、いくつか用意されたキーワード認識モデル204の中から最適なモデルを選択するよう動作しても良い。
すなわち、キーワード区間抽出モデル203が、いくつかのキーワードを含むキーワードグループに対する尤度を返すよう学習されている場合、キーワード抽出モデル学習手段210は、キーワード認識モデル204を、そのキーワードグループごとに学習しておく。こうすることで各モデルをより高精度に学習させることが可能となり、キーワード抽出精度が向上する。
第2の実施の形態では、キーワード抽出に必要な2つの識別動作、すなわち、ある音声区間がキーワードであるかどうかを識別する動作と、ある音声区間がどのキーワードであるかを識別する動作とを、別個にモデル化するため、より精度の高いモデルを構築できる。特に、SVM等の識別モデルを用いる場合は、相対的に負例の個数が増えるので、第1の実施の形態におけるモデルよりも精度の高い学習を行うことができる。
また、第2の実施の形態では、類似するキーワードに対するより高い汎化能力を持った学習が可能である。
キーワードが類似する場合、その発話表現や、その音声に対する認識結果は互いに似通い、オーバーラップすることもある。例えば、キーワードAの変形であるキーワードA1と、キーワードBの変形であるキーワードB1とが、まったく同じ形になることがある。第1の実施の形態では、そのようなオーバーラップはモデルの学習精度を低下させることがある。一方、第2の実施の形態では、少なくともキーワード区間抽出モデル203の学習に関しては、オーバーラップは問題にならない。なぜなら、キーワード区間抽出手段201にとって、キーワードA1(=キーワードB1)にマッチする音声区間に対して、「Aであるか」「Bであるか」は問題にならず、「AかBの何れかがこの区間にあらわれた」ことだけを精度よく推定できれば十分だからである。
また、キーワード認識モデル204についても、第2の実施の形態の方がより精度の高いモデルを学習できる可能性がある。なぜなら、第1の実施の形態では、キーワード抽出モデル102はキーワードの前後にあるフィラーについても棄却できるように学習する必要があった。一方、第2の実施の形態におけるキーワード認識モデル204では、キーワード前後のフィラーを考慮する必要がない。
また、キーワードグループごとに別のキーワード認識モデル204を用いる場合に、より精度の高いモデルを学習可能であることはいうまでもない。
予め複数のキーワードの一部がグループを構成することが分かっている場合は、初期モデルを構築する時点でグループ化しておくことができる。そうでない場合は、互いにオーバーラップする複数のキーワードを統合するようにすれば良い。例えば、あるキーワードに対する発話表現が与えられたときに、そのキーワード以外のあるキーワード群に対して高い尤度が得られたならば、その高い尤度が得られたキーワード群に、その発話表現のキーワードを統合するようにすれば良い。
次に、第2の実施の形態の実施例について説明する。図7は、本実施例によるキーワード抽出システムの構成例を示すブロック図である。図7に示すように、キーワード抽出システム300が、商品情報検索システム320のフロントエンドとして動作する場合について説明する。
商品情報検索システム320は、1つ又は複数の検索ワードを与えられることで、その検索ワードに関する情報を含む商品の情報を提示する。例えば、商品の正式名称や略称、カタログ上での商品番号、商品の分類(家具、椅子、テレビ、健康器具、等)、商品の特徴を現す言葉(白い、パイプ製、大画面、肩こり)などを入力することで、商品情報を検索できる。これらの検索ワードは、キーボード等の入力装置を用いて入力することもできる。
商品情報検索システム320の利用者は、電話等で顧客と応対しながら、必要な商品情報を検索するものとする。
キーワード抽出システム300は、キーワード区間切り出し部301と、キーワード認識部302と、N個のキーワードクラスタ抽出モデル303と、N個のキーワードクラスタ認識モデル304とを含む。
キーワードクラスタ抽出モデル303は、SVMやCRF等の識別モデルを複数並列に配置したものである。各キーワードクラスタ抽出モデル303は、あるクラスタに属す一連のキーワードおよびその発話表現をモデル化したものである。各キーワードクラスタ抽出モデル303は、ある音声区間の音響特徴量、音素列、上位n位までの認識候補の単語列、各単語の品詞情報等の素性を元に、正例(そのクラスタに属すキーワードおよび発話表現)と負例(そのクラスタに属さないキーワードおよび発話表現、さらに非キーワード、ノイズ等)をもっとも精度よく識別できるよう学習される。
キーワード区間切り出し部301は、入力音声からキーワードクラスタ抽出モデル303が要求する各種素性を算出する。算出した各種素性をキーワードクラスタ抽出モデル303に入力することで、ある音声区間が、キーワードクラスタ抽出モデル303によって表されるキーワードの何れかであるかを示す尤度が求められる。複数のキーワードクラスタ抽出モデル303のうち、もっとも高い尤度を返したキーワードクラスタ抽出モデル303が示すクラスタ(最尤クラスタ)について、尤度が所定の閾値を越えていれば、キーワード区間切り出し部301は、その音声区間ではそのクラスタに属すキーワードのいずれかが発話されたと判断する。
キーワード認識部302は、キーワード区間切り出し部301が何れかのキーワードクラスタに対応する音声区間を検出した際に起動される。キーワード認識部302は、切り出された音声区間に対する最尤クラスタのキーワードクラスタ認識モデル304を用いて、音声区間について音声認識処理を行う。その結果、もっとも高い尤度を返したキーワードについて、その尤度が所定の閾値を超えていれば、キーワード認識部302は、その音声区間でそのキーワード(またはその発話表現)が発話されたと判断する。
キーワードクラスタ認識モデル304は、あるキーワードクラスタに対応するある音声区間について、そのキーワードクラスタに包含されるいずれのキーワードまたはその発話表現であるかをそれぞれへの尤度として返す。実装としては、非特許文献1に記載されているHMMキーワードネットワークや、重み付き木構造辞書、文字N−gramなどが利用できる。ここでは、音節HMMによるキーワードネットワークを用いる場合について説明する。
次に、キーワードモデル学習部310の動作について説明する。まず、キーワードモデル学習部310に、学習データ対が入力される。学習データ対は、商品情報検索システム320に過去に入力された検索クエリ(検索ワード)と、検索クエリが発行された際の利用者の発話音声と、発話音声中で、検索クエリに対応すると思われる発声が行われた相対時刻情報とを含む。
例えば、利用者が「お問い合わせ商品の商品番号を頂けますか。はい。Aの…30…D?あ、Aの30Cですね」と発話した直後に検索クエリ「A−30C」をキータイプし、商品情報検索システム320に問い合わせを発行したとする。このとき、検索クエリ「A−30C」と、この発話全体の音声と、「Aの30C」と発話した相対時刻情報とを含む学習データ対が、キーワードモデル学習部310への入力となる。このとき、すでにキーワードモデルが十分に学習されていれば、検索クエリ「A−30C」から考えうる発話表現のいずれかが発話音声の中に存在するかチェックし、見つかれば(このケースでは「Aの30C」が見つかる筈であるが)、この発話区間の時刻情報と、発話全体と、検索クエリ「A−30C」を学習データ対として自動的に見つけ出せる。キーワードモデルの学習が不十分な場合は、利用者が発話時に手動で関連付けをする(例えば、発話内容が順次音声認識されて画面に出ている場合は、その該当音声部位を選択するなど)か、あるいは事後に利用者または第三者が明示的に関連付けすることによって、学習データ対を準備する。
キーワードモデル学習部310は、まず、新たな学習データが、既知のいずれかのキーワードクラスタに属すかどうか判断する。学習データとして与えられた検索クエリが既知の何れかのキーワードクラスタに属していれば、以降、キーワードモデル学習部310は、そのクラスタに対する学習を行う。いずれのクラスタにも属していない場合は、キーワードモデル学習部310は、新たなクラスタを作成する。
次に、キーワードモデル学習部310は、キーワードクラスタ抽出モデル303に対する学習を行う。キーワードモデル学習部310は、選択した(あるいは作成した)クラスタに対応するキーワードクラスタ抽出モデル303に対して、発話音声のうち検索クエリに対応すると思われる発声が行われた時刻の音声について、必要な素性情報を抽出する。これを正例として、このキーワードクラスタ抽出モデル用の学習データに追加する。さらに、その発話以外の時刻の音声についても同様に必要な素性情報を抽出し、これを負例として学習データに追加する。キーワードモデル学習部310は、追加された学習データを用いてキーワードクラスタ抽出モデル303を学習する。学習アルゴリズムは、採用したモデル(SVM、CRF等)に応じたものを適宜利用する。
次に、キーワードモデル学習部310は、キーワードクラスタ認識モデル304に対する学習を行う。キーワードモデル学習部310は、選択した(あるいは作成した)クラスタに対応するキーワードクラスタ認識モデル304に対して、発話音声のうち検索クエリに対応すると思われる発声が行われた時刻の音声について、必要な素性情報を抽出する。キーワードモデル学習部310は、音節HMMを用いる場合は、音声から抽出した音響特徴量が所与の音響モデルに対してもっとも高い尤度を示すような音節列を求める。
キーワードモデル学習部310は、抽出した素性情報を学習データとして、キーワードに対するHMMを生成する。さらに、キーワードモデル学習部310は、検索クエリ文字列を音節列に変換し、こちらのHMMも合わせて作成する。こうして生成した二つのHMMは、どちらも検索クエリ(キーワード)に対する尤度を求めるのに用いられる。
なお、キーワードクラスタ認識モデル304としてSVM等の識別モデルを利用することも、キーワードクラスタ抽出モデル303としてN−gramやキーワードネットワークを利用することも、どちらも当然可能である。
キーワードモデル学習部310は、さらに、クラスタの統合が必要か判断する。これはキーワードクラスタ抽出モデル303について、重複がどれだけ見られるかで判断する。例えば、キーワードモデル学習部310は、各クラスタのキーワードクラスタ抽出モデル303の学習データの正例について、他のクラスタの正例と一致するものの割合を数える。これが所定の閾値以上であれば、これらのクラスタは統合が必要と判断する。
本発明によれば、音声入力I/Fを備えた情報検索装置や、音声から必要な情報を抽出して所定のフォームに埋めるような情報記録装置、所定の内容に関する音声を検索するメディア検索装置、またボイスコマンドによって動作する情報家電装置やソフトウェア、といった用途に適用できる。
尚、この出願は2007年6月6日に出願された日本出願特願第2007−150082号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。

Claims (33)

  1. キーワード抽出モデルに基づいて音声からキーワードを抽出して出力するキーワード抽出システムの前記キーワード抽出モデルを学習するキーワード抽出モデル学習システムであって、
    前記キーワード抽出システムを含む入力の経路である第1の入力経路、及び、前記第1の入力経路以外の入力の経路である第2の入力経路のいずれかを介した入力を受けて動作する情報処理装置である連携システムへの、前記第2の入力経路を介した入力と、その入力に対応する音声とを用いて、前記キーワード抽出モデルを拡張することにより学習を行なうキーワード抽出モデル学習手段を備えたことを特徴とするキーワード抽出モデル学習システム。
  2. 前記第2の入力経路を介した入力は少なくともテキスト情報を含む請求項1記載のキーワード抽出モデル学習システム。
  3. 前記第2の入力経路を介した入力に対応する音声は、前記第2の入力経路を介した入力に対応する一部と、対応しない一部のいずれをも含む請求項1または請求項2記載のキーワード抽出モデル学習システム。
  4. 前記キーワード抽出モデルは、
    キーワードに一致する特徴量に対して第1の尤度を出力し、
    キーワードに対応する発話表現に一致する特徴量に対して、前記第1の尤度以下の第2の尤度を出力し、
    キーワード及びキーワードに対応する発話表現のどちらにも一致しないが、いずれかに類似する特徴量に対して、前記第2の尤度以下の第3の尤度を出力し、
    上記のいずれにも当てはまらない特徴量に対して、前記第3の尤度以下の第4の尤度を出力する
    ことを特徴とする請求項1乃至請求項3のいずれかに記載のキーワード抽出モデル学習システム。
  5. 前記キーワード抽出モデル学習手段は、前記第2の入力経路を介した入力に対応する音声を、該入力と類似しない別の入力に関するモデル学習の負例の学習データとして用いる請求項1から請求項のうちのいずれか1項に記載のキーワード抽出モデル学習システム。
  6. 前記キーワード抽出モデル学習手段は、予め与えられた制約に基づいて前記第2の入力経路を介した入力を1つ以上のクラスタに分類し、各クラスタに関する学習を行う請求項1から請求項のうちのいずれか1項に記載のキーワード抽出モデル学習システム。
  7. 前記キーワード抽出モデル学習手段が学習するキーワード抽出モデルは、ある音声の一部がいずれかのキーワードの発話であるかの尤度を返すキーワード区間モデルと、ある音声の一部が各キーワードの発話であるかの尤度を返すキーワード認識モデルと、の2種類のモデルからなり、
    前記キーワード抽出モデル学習手段は、前記2種類のモデルを学習する
    請求項1から請求項のうちのいずれか1項に記載のキーワード抽出モデル学習システム。
  8. 前記第2の入力経路を介した入力と、
    前記第2の入力経路を介した入力に対応する可能性の高い音声の一区間を見つけ出し、この区間の音声と、
    を用いて学習を行うキーワード抽出モデル学習手段を備えた
    請求項1から請求項のうちのいずれか1項に記載のキーワード抽出モデル学習システム。
  9. 前記キーワード抽出モデル学習手段は、前記第2の入力経路を介した入力に対応する音声または前記第2の入力経路を介した入力に対応する音声の書き起こしを用いて学習を行う
    請求項1から請求項のうちのいずれか1項に記載のキーワード抽出モデル学習システム。
  10. 請求項1から請求項のうちのいずれか1項に記載のキーワード抽出モデル学習手段によって学習したキーワード抽出モデルを用いることを特徴とするキーワード抽出システム。
  11. 請求項10に記載のキーワード抽出システムを用いることを特徴とする情報入力システム。
  12. 請求項10に記載のキーワード抽出システムを用いることを特徴とする情報検索システム。
  13. キーワード抽出モデルに基づいて音声からキーワードを抽出して出力するキーワード抽出システムの前記キーワード抽出モデルを学習するキーワード抽出モデル学習方法であって、
    前記キーワード抽出システムを含む入力の経路である第1の入力経路、及び、前記第1の入力経路以外の入力の経路である第2の入力経路のいずれかを介した入力を受けて動作する情報処理装置である連携システムへの、前記第2の入力経路を介した入力と、前記入力に対応する音声とを用いて、前記キーワード抽出モデルを拡張することにより学習を行うキーワード抽出モデル学習ステップを含むことを特徴とするキーワード抽出モデル学習方法。
  14. 前記第2の入力経路を介した入力は少なくともテキスト情報を含む請求項13記載のキーワード抽出モデル学習方法。
  15. 前記第2の入力経路を介した入力に対応する音声は、前記第2の入力経路を介した入力に対応する一部と、対応しない一部のいずれをも含む請求項13または請求項14記載のキーワード抽出モデル学習方法。
  16. 前記キーワード抽出モデルは、
    キーワードに一致する特徴量に対して第1の尤度を出力し、
    キーワードに対応する発話表現に一致する特徴量に対して、前記第1の尤度以下の第2の尤度を出力し、
    キーワード及びキーワードに対応する発話表現のどちらにも一致しないが、いずれかに類似する特徴量に対して、前記第2の尤度以下の第3の尤度を出力し、
    上記のいずれにも当てはまらない特徴量に対して、前記第3の尤度以下の第4の尤度を出力する
    ことを特徴とする請求項13乃至請求項15のいずれかに記載のキーワード抽出モデル学習方法。
  17. 前記キーワード抽出モデル学習ステップで、前記第2の入力経路を介した入力に対応する音声を、該入力と類似しない別の入力に関するモデル学習の負例の学習データとして用いる請求項13から請求項16のうちのいずれか1項に記載のキーワード抽出モデル学習方法。
  18. 前記キーワード抽出モデル学習ステップで、予め与えられた制約に基づいて前記第2の入力経路を介した入力を1つ以上のクラスタに分類し、各クラスタに関する学習を行う請求項13から請求項17のうちのいずれか1項に記載のキーワード抽出モデル学習方法。
  19. 前記キーワード抽出モデル学習ステップで学習するキーワード抽出モデルは、ある音声の一部がいずれかのキーワードの発話であるかの尤度を返すキーワード区間モデルと、ある音声の一部が各キーワードの発話であるかの尤度を返すキーワード認識モデルと、の2種類のモデルからなり、
    前記キーワード抽出モデル学習ステップで、前記2種類のモデルを学習する
    請求項13から請求項18のうちのいずれか1項に記載のキーワード抽出モデル学習方法。
  20. 前記キーワード抽出モデル学習ステップで、前記第2の入力経路を介した入力と、前記第2の入力経路を介した入力に対応する可能性の高い音声の一区間を見つけ出し、この区間の音声と、を用いて学習を行う請求項13から請求項19のうちのいずれか1項に記載のキーワード抽出モデル学習方法。
  21. 前記キーワード抽出モデル学習ステップで、前記第2の入力経路を介した入力に対応する音声または前記第2の入力経路を介した入力に対応する音声の書き起こしを用いて学習を行う請求項13から請求項20のうちのいずれか1項に記載のキーワード抽出モデル学習方法。
  22. 請求項13から請求項21のうちのいずれか1項に記載のキーワード抽出モデル学習方法で学習したキーワード抽出モデルを用いることを特徴とするキーワード抽出方法。
  23. 請求項22に記載のキーワード抽出方法を用いることを特徴とする情報入力方法。
  24. 請求項22に記載のキーワード抽出方法を用いることを特徴とする情報検索方法。
  25. キーワード抽出モデルに基づいて音声からキーワードを抽出して出力するキーワード抽出システムの前記キーワード抽出モデルを学習するためのキーワード抽出モデル学習プログラムであって、
    コンピュータに、
    前記キーワード抽出システムを含む入力の経路である第1の入力経路、及び、前記第1の入力経路以外の入力の経路である第2の入力経路のいずれかを介した入力を受けて動作する情報処理装置である連携システムへの、前記第2の入力経路を介した入力と、前記入力に対応する音声とを用いて、前記キーワード抽出モデルを拡張することにより学習を行うキーワード抽出モデル学習処理を
    実行させるためのキーワード抽出モデル学習プログラム。
  26. 前記第2の入力経路を介した入力は少なくともテキスト情報を含む請求項25記載のキーワード抽出モデル学習プログラム。
  27. 前記第2の入力経路を介した入力に対応する音声は、前記第2の入力経路を介した入力に対応する一部と、対応しない一部のいずれをも含む請求項25または請求項26記載のキーワード抽出モデル学習プログラム。
  28. 前記キーワード抽出モデルは、
    キーワードに一致する特徴量に対して第1の尤度を出力し、
    キーワードに対応する発話表現に一致する特徴量に対して、前記第1の尤度以下の第2の尤度を出力し、
    キーワード及びキーワードに対応する発話表現のどちらにも一致しないが、いずれかに類似する特徴量に対して、前記第2の尤度以下の第3の尤度を出力し、
    上記のいずれにも当てはまらない特徴量に対して、前記第3の尤度以下の第4の尤度を出力する
    ことを特徴とする請求項25乃至請求項27のいずれかに記載のキーワード抽出モデル学習プログラム。
  29. コンピュータに、
    前記キーワード抽出モデル学習処理で、前記第2の入力経路を介した入力に対応する音声を、該入力と類似しない別の入力に関するモデル学習の負例の学習データとして用いる処理を実行させる
    請求項25から請求項28のうちのいずれか1項に記載のキーワード抽出モデル学習プログラム。
  30. コンピュータに、
    前記キーワード抽出モデル学習処理で、予め与えられた制約に基づいて前記第2の入力経路を介した入力を1つ以上のクラスタに分類し、各クラスタに関する学習を行う処理を実行させる
    請求項25から請求項29のうちのいずれか1項に記載のキーワード抽出モデル学習プログラム。
  31. 前記キーワード抽出モデル学習処理で学習するキーワード抽出モデルは、ある音声の一部がいずれかのキーワードの発話であるかの尤度を返すキーワード区間モデルと、ある音声の一部が各キーワードの発話であるかの尤度を返すキーワード認識モデルと、の2種類のモデルからなり、
    コンピュータに、
    前記キーワード抽出モデル学習処理で、前記2種類のモデルを学習する処理を実行させる
    請求項25から請求項30のうちのいずれか1項に記載のキーワード抽出モデル学習プログラム。
  32. コンピュータに、
    キーワード抽出モデル学習処理で、前記第2の入力経路を介した入力と、前記第2の入力経路を介した入力に対応する可能性の高い音声の一区間を見つけ出し、この区間の音声と、を用いて学習を行う処理を実行させる
    請求項25から請求項31のうちのいずれか1項に記載のキーワード抽出モデル学習プログラム。
  33. コンピュータに、
    前記キーワード抽出モデル学習処理で、前記第2の入力経路を介した入力に対応する音声または前記第2の入力経路を介した入力に対応する音声の書き起こしを用いて学習を行う処理を実行させる
    請求項25から請求項32のうちのいずれか1項に記載のキーワード抽出モデル学習プログラム。
JP2009517922A 2007-06-06 2008-06-02 キーワード抽出モデル学習システム、方法およびプログラム Active JP5360414B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009517922A JP5360414B2 (ja) 2007-06-06 2008-06-02 キーワード抽出モデル学習システム、方法およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2007150082 2007-06-06
JP2007150082 2007-06-06
JP2009517922A JP5360414B2 (ja) 2007-06-06 2008-06-02 キーワード抽出モデル学習システム、方法およびプログラム
PCT/JP2008/060506 WO2008150003A1 (ja) 2007-06-06 2008-06-02 キーワード抽出モデル学習システム、方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2008150003A1 JPWO2008150003A1 (ja) 2010-08-26
JP5360414B2 true JP5360414B2 (ja) 2013-12-04

Family

ID=40093806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009517922A Active JP5360414B2 (ja) 2007-06-06 2008-06-02 キーワード抽出モデル学習システム、方法およびプログラム

Country Status (2)

Country Link
JP (1) JP5360414B2 (ja)
WO (1) WO2008150003A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010277036A (ja) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp 音声データ検索装置
JP5542732B2 (ja) * 2010-10-29 2014-07-09 日本電信電話株式会社 データ抽出装置、データ抽出方法、及びそのプログラム
US20130289987A1 (en) * 2012-04-27 2013-10-31 Interactive Intelligence, Inc. Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
JP6929960B2 (ja) 2017-11-24 2021-09-01 株式会社Nttドコモ 情報処理装置及び情報処理方法
JP7360814B2 (ja) * 2019-05-21 2023-10-13 株式会社 ディー・エヌ・エー 音声処理装置及び音声処理プログラム
JP7345897B2 (ja) 2021-11-30 2023-09-19 政志 松本 データ保管装置、データ保管方法、及びデータ保管プログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61196360A (ja) * 1985-02-27 1986-08-30 Nec Corp ワ−ドプロセツサ
JPS6281699A (ja) * 1985-10-07 1987-04-15 株式会社リコー 音声ワ−プロ装置における辞書作成及び更新方法
JPH06214593A (ja) * 1993-01-19 1994-08-05 Sony Corp 文書作成装置
JPH11231886A (ja) * 1998-02-18 1999-08-27 Denso Corp 登録名称認識装置
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2001249920A (ja) * 1999-10-05 2001-09-14 Microsoft Corp 推測入力源からのテキストに対して候補を提供する方法およびシステム
JP2004341293A (ja) * 2003-05-16 2004-12-02 Toyota Motor Corp 音声を文字データに変換する装置と方法とそのためのプログラムと対話装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61196360A (ja) * 1985-02-27 1986-08-30 Nec Corp ワ−ドプロセツサ
JPS6281699A (ja) * 1985-10-07 1987-04-15 株式会社リコー 音声ワ−プロ装置における辞書作成及び更新方法
JPH06214593A (ja) * 1993-01-19 1994-08-05 Sony Corp 文書作成装置
JPH11231886A (ja) * 1998-02-18 1999-08-27 Denso Corp 登録名称認識装置
JP2001092494A (ja) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラム記録媒体
JP2001249920A (ja) * 1999-10-05 2001-09-14 Microsoft Corp 推測入力源からのテキストに対して候補を提供する方法およびシステム
JP2004341293A (ja) * 2003-05-16 2004-12-02 Toyota Motor Corp 音声を文字データに変換する装置と方法とそのためのプログラムと対話装置

Also Published As

Publication number Publication date
JPWO2008150003A1 (ja) 2010-08-26
WO2008150003A1 (ja) 2008-12-11

Similar Documents

Publication Publication Date Title
US10121467B1 (en) Automatic speech recognition incorporating word usage information
US8909529B2 (en) Method and system for automatically detecting morphemes in a task classification system using lattices
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US7620548B2 (en) Method and system for automatic detecting morphemes in a task classification system using lattices
JP5440177B2 (ja) 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
Mandal et al. Recent developments in spoken term detection: a survey
JP2004005600A (ja) データベースに格納された文書をインデックス付け及び検索する方法及びシステム
CN103885949B (zh) 一种基于歌词的歌曲检索系统及其检索方法
WO2003010754A1 (fr) Systeme de recherche a entree vocale
JP2004133880A (ja) インデックス付き文書のデータベースとで使用される音声認識器のための動的語彙を構成する方法
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
JP5360414B2 (ja) キーワード抽出モデル学習システム、方法およびプログラム
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
Gandhe et al. Using web text to improve keyword spotting in speech
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP2003271629A (ja) 音声入力によるテキスト検索方法およびその装置
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
Norouzian et al. An approach for efficient open vocabulary spoken term detection
Wang Mandarin spoken document retrieval based on syllable lattice matching
JP4986301B2 (ja) 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法
Cerisara Automatic discovery of topics and acoustic morphemes from speech
Li et al. Unsupervised semantic intent discovery from call log acoustics
AU2006201110A1 (en) Dynamic match lattice spotting for indexing speech content

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130807

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130820

R150 Certificate of patent or registration of utility model

Ref document number: 5360414

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150