WO2008150003A1 - Keyword extraction model learning system, method, and program - Google Patents

Keyword extraction model learning system, method, and program Download PDF

Info

Publication number
WO2008150003A1
WO2008150003A1 PCT/JP2008/060506 JP2008060506W WO2008150003A1 WO 2008150003 A1 WO2008150003 A1 WO 2008150003A1 JP 2008060506 W JP2008060506 W JP 2008060506W WO 2008150003 A1 WO2008150003 A1 WO 2008150003A1
Authority
WO
WIPO (PCT)
Prior art keywords
extraction model
input
key
learning
keyword
Prior art date
Application number
PCT/JP2008/060506
Other languages
French (fr)
Japanese (ja)
Inventor
Kentaro Nagatomo
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to JP2009517922A priority Critical patent/JP5360414B2/en
Publication of WO2008150003A1 publication Critical patent/WO2008150003A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

Keyword extraction model leaning means (110) inputs an input to a linked system (120), voice data, and information correlating them. The keyword extraction model learning means (110) assumes that an input to the linked system (120) is a keyword and learns a keyword extraction model for presuming a keyword or its utterance expression contained in the voice data according to the input to the linked system (120), the voice data, and the information on the correlation.

Description

キーヮード抽出モデル学習システム、 方法およびプログラム 技術分野:  Key word extraction model learning system, method and program
本発明は、 音声からキ一ワードを抽出するキーヮード抽出モデルを学習するキ ーヮード抽出モデル学習システム、キーヮ一ド抽出システム、情報入力システム、 情報検索システム、 キーワード抽出明モデル学習方法、 キーワード抽出方法、 情報 入力方法、 情報検索方法およびキーワー細ド抽出モデル学習プログラムに関し、 特 に、 連携先システムへの入力とその入力に対応する音声を用いて学習を行うこと を特徴とするキーワード抽出モデル学習システム、 キーワード抽出システム、 情 報入力システム、 情報検索システム、 キーワード抽出モデル学習方法、 キーヮ一 ド抽出方法、 情報入力方法、 情報検索方法およびキーワード抽出モデル学習プロ グラムに関する。 背景技術:  The present invention relates to a key extraction model learning system, a key extraction system, an information input system, an information search system, a keyword extraction model learning method, a keyword extraction method, a key extraction model learning system for learning a keyword extraction model for extracting a keyword from speech, An information input method, an information search method, and a keyword refined model learning program, in particular, a keyword extraction model learning system characterized by learning using an input to a cooperation destination system and a voice corresponding to the input, The present invention relates to a keyword extraction system, an information input system, an information search system, a keyword extraction model learning method, a key key extraction method, an information input method, an information search method, and a keyword extraction model learning program. Background technology:
単語や句 (単語の集合)、 文などを入力とする情報入力システムや情報検索シス テムに対して、 そのフロントエンドとして音声認識技術を用いる場合に、 音声デ ータから特定の語句等を抽出する 「キーワード抽出」 技術がよく用いられる。 以 下、 便宜上、 単語だけでなく句や文などについても、 それがキーワード抽出手段 のバックエンドとなるシステム (以下、 連携先システムと表記する。) に対する有 意な入力として抽出の対象となる場合には、 すべて 「キーワード」 と表現する。 従来のキーワード抽出技術は、 大きく 2種類の方法で実現されてきた。 1つは 「ワードスポッティング」 と呼ばれる方式であって、 予め定められたキーワード が音声中に含まれているか否かを判断する方式である。 もう 1つの方式は、 いわ ゆる音声認識 (音声からテキストへの変換) によって音声全体をいつたんテキス トに変換した後に、テキスト処理技術を用いてキーヮードを抽出する方式(以下、 テキスト処理方式と表記する。) である。  When speech recognition technology is used as the front end for information input systems and information retrieval systems that input words, phrases (a set of words), sentences, etc., specific words and phrases are extracted from the speech data. The “keyword extraction” technology is often used. In the following, for convenience, not only words but also phrases and sentences are subject to extraction as meaningful input to the system that serves as the back end of the keyword extraction means (hereinafter referred to as the linked system). Are all expressed as “keywords”. Conventional keyword extraction techniques have been implemented in two main ways. One is a method called “word spotting” that determines whether or not a predetermined keyword is included in the speech. The other method is to convert the entire speech into text by so-called speech recognition (speech-to-text conversion) and then extract the keyword using text processing technology (hereinafter referred to as text processing method). Yes.)
R. C. Rose and D. B. Paul, "a hidden Markov model Dased keyword recognition system", in Proc. ICASSP 90, pp.129-132. (以下非特許文献 1と記 す) には、 「ワードスポッティング」 方式の一例が記載されている。 非特許文献 1 には、 予め列挙されたキーワードのそれぞれについて、 入力音声の一部がキーヮ ―ドと同じであるか否かを推定するモデルを用意し、 用意したモデルを並列につ なぐ (キーワードネットワーク) ことが記載されている。 RC Rose and DB Paul, "a hidden Markov model Dased keyword An example of the “word spotting” method is described in “recognition system”, in Proc. ICASSP 90, pp.129-132. Non-Patent Document 1 provides a model that estimates whether or not a part of the input speech is the same as the keyboard for each of the keywords listed in advance, and connects the prepared models in parallel (keyword Network).
また、非特許文献 1には、これと並行して非キーワード用のモデルを並べる(フ イラ一ネットワーク) ことが記載されている。 入力音声が、 並列に置かれたモデ ルのうち、 キーワードモデルの何れかに対して尤度最大となれば、 そのキーヮ一 ドが現れたとみなすことができる。 また、 非特許文献 1に記載された方式では、 さらにキーワード フイラ一ネットワークの全体と並列にバックグラウンドモデ ルを配置する。 バックグラウンドモデルは、 あらゆる音声について言語的なバイ ァスが掛かりにくいように設計される。 そして、 キーワードモデルに対する尤度 とバックグラウンドモデルに対する尤度の差を用いることで、 正規化された尤度 を用いた抽出結果の棄却判定を行う。 上記のような構造とすることで、 入力音声 の音響的な条件に対して口バストなキーワード抽出が可能となる。  Non-Patent Document 1 describes that non-keyword models are arranged in parallel (filer network). If the input speech has the maximum likelihood for any of the keyword models among the models placed in parallel, it can be considered that the key phrase has appeared. In the method described in Non-Patent Document 1, a background model is arranged in parallel with the entire keyword filter network. The background model is designed so that linguistic bias is not easily applied to any speech. Then, by using the difference between the likelihood for the keyword model and the likelihood for the background model, the rejection judgment of the extraction result using the normalized likelihood is performed. By adopting the structure as described above, it is possible to extract a keyword that is robust against the acoustic conditions of the input speech.
キ一ヮ一ドモデルでは、 キーヮードに類似した非キーヮードを吸収する問題が ある。 そのため、 フィラーモデルや、 バックグラウンドモデルによる尤度正規化 処理が提案された。 特に、 フィラーの追加は手軽なチューニング手段として知ら れている。 例えば、 キーワード 「和歌山」 のモデルが 「おかやま」 という発声を 誤抽出する場合には 「おかやま」 をフイラ一として追加するなどの方法が知られ ている。  In the key model, there is a problem of absorbing a non-keyword similar to the keypad. For this reason, likelihood normalization using a filler model or background model was proposed. In particular, adding a filler is known as an easy tuning tool. For example, when the model of the keyword “Wakayama” mistakenly extracts the utterance “Okayama”, a method of adding “Okayama” as a filer is known.
例えば、 特開 2 0 0 5— 0 9 2 3 1 0号公報 (以下特許文献 1と記す) には、 フィラーとしてキーヮ一ドに類似した単語を大語彙辞書から見つけて追加する技 法が開示されている。また、 「パーソナルロボット PaPeRoの音声認識インタフエ —ス」 (岩沢, 第 1 3回 A Iチャレンジ研究会資料, p . 1 7— 2 2、 以下非特許 文献 2と記す) には、 フィラーを音節連続辞書から生成する技法が記載されてい る。  For example, Japanese Patent Application Laid-Open No. 2 0 0 5-0 9 2 3 1 0 (hereinafter referred to as Patent Document 1) discloses a technique for finding a word similar to a key word as a filler from a large vocabulary dictionary and adding it. Has been. In addition, the “Speech Recognition Interface of Personal Robot PaPeRo” (Iwasawa, 13th AI Challenge Study Group, p. 17 7-2 2, hereinafter referred to as Non-Patent Document 2) is filled with fillers as syllable continuous dictionaries. The technique to generate from is described.
実際には、 個々のフイラ一モデルはそこまで厳密に動作するわけではない。 例 えば、 「岡山」 と 「和歌山」 の二つのモデルに対して 「わかやま」 という発声を入 力しても 「岡山」 モデルの尤度が高くなるケースはあり得る。 これは、 「和歌山」 のモデルが入力された 「わかやま」 という音声に対して十分に学習されていない ケースで起こる問題である。 このような場合は、 非特許文献 2に記載された技法 と同様に、 「わかやま」 という音声によりょくマッチするフイラ一(例えば 「あか やま」) を 「和歌山」 の変形として追加するなどのアドホックな対応手段が知られ ている。 In practice, the individual filler models do not work so precisely. For example, the voice “Wakayama” is input to two models “Okayama” and “Wakayama”. There are cases where the likelihood of the “Okayama” model increases even when applied. This is a problem that occurs when the “Wakayama” model is not sufficiently learned for the input “Wakayama” speech. In such a case, similar to the technique described in Non-Patent Document 2, an ad hoc method such as adding a wirayama (for example, “Akayama”) that matches the sound of “Wakayama” as a variant of “Wakayama”. Various countermeasures are known.
キーワード抽出の別の実現方式であるテキスト処理方式は、 いわゆるディクテ —ション技術の普及とともに利用されるようになってきた方式である。 基本的に は、 大語彙連続音声認識技術と文字列照合技術の単純な組み合わせで構成可能な 為、 キーヮード抽出よりもその後段の処理に主眼が置かれる場合などで多用され る傾向がある。 近年では、 ディクテ一シヨン技術の認識精度が向上したこともあ り、 より高度な自然言語処理技術との組み合わせが提案されている。 例えば、 D. uler, R. Schwartz, R. Weischedel and R. Stone, "Named entity extraction from broadcast news", in Proc. the DARPA Broadcast News Workshop. Herndon, Virginia, 1999, pp.37-40. (以下非特許文献 3と記す) には、 ディクテ ーション技術と自然言語処理技術の 1つである固有表現(Named Entity)抽出を 組み合わせることが記載されている。 固有表現は、 例えば、 「人名」 や 「地名」 の ようなある種の構造を持ったテキストであり、 ここではキーワードの一種と考え る。 発明の開示:  The text processing method, which is another implementation method of keyword extraction, is a method that has come to be used with the spread of so-called dictation technology. Basically, it can be composed of a simple combination of large vocabulary continuous speech recognition technology and character string matching technology, so it tends to be used more often when the focus is on subsequent processing rather than key word extraction. In recent years, the recognition accuracy of dictation technology has improved, and a combination with more advanced natural language processing technology has been proposed. For example, D. uler, R. Schwartz, R. Weischedel and R. Stone, "Named entity extraction from broadcast news", in Proc. The DARPA Broadcast News Workshop. Herndon, Virginia, 1999, pp. 37-40. Non-Patent Document 3) describes a combination of dictation technology and named entity extraction, which is one of natural language processing technologies. For example, a proper expression is a text having a certain structure such as “person name” or “place name”, and is considered a kind of keyword here. Disclosure of the invention:
発明が解決しょうとする課題  Problems to be solved by the invention
し力 し、 上述した従来技術では、 キーワード抽出処理を利用する連携先システ ムにとって適切なキーヮードを事前に収集することが困難であって、 非常に手間 が掛かる。  However, in the above-described conventional technology, it is difficult to collect appropriate keywords in advance for the cooperation destination system using the keyword extraction process, which is very troublesome.
従来技術は、 キーヮードを如何に精度よく抽出するかに主眼を置いたものが主 流であった。 従来技術では、 抽出の対象となるキーワードは既知または容易に収 集可能であると仮定されている。 例えば、 非特許文献 2に記載された技術のよう に、 抽出された個々のキーヮ一ドに対するバックェンド側の処理が明確に規定さ れているケースでは、 上記の ί反定が成り立つ。 しかし、 実世界で稼動する連携先 システムの多くは、 非常に多くの入力を扱うことが可能であり、 抽出の対象とな るキーワードもまた多種多様となる。 連携先システムが利用するために必要十分 なキーワードを収集できなければ、 キーワード抽出精度が如何に高くとも、 実用 的なキーワード抽出システムとは言えない。 In the prior art, the mainstream was focused on how to extract the keywords accurately. In the prior art, it is assumed that the keywords to be extracted are known or can be easily collected. For example, as in the technique described in Non-Patent Document 2, the processing on the backend side for each extracted key key is clearly specified. In the case where the above is true, the above resolution is established. However, many of the linked systems operating in the real world can handle a very large number of inputs, and the keywords to be extracted also vary. Unless enough keywords can be collected to be used by the partner system, no matter how high the keyword extraction accuracy is, it cannot be said to be a practical keyword extraction system.
キーヮード収集が困難な第 1の理由は、 キーヮ一ド抽出システムをどのような システムと連携させるかによつて、 収集すべきキ一ヮ一ドがまったく異なってく ることである。 例えば、 チケット予約システムと連携させるのであれば、 ィベン トの名称やチケット番号を抽出する必要がある。 一方、 電車の乗り換え案内シス テムと連携させるのであれば、 駅名を収集しなければならない。  The first reason why key collection is difficult is that the keywords to be collected are completely different depending on the system with which the key extraction system is linked. For example, if linked with a ticket reservation system, it is necessary to extract the event name and ticket number. On the other hand, if it is linked with a train transfer guidance system, station names must be collected.
キーヮード収集が困難な第 2の理由は、 キーヮードそのものだけを収集するだ けでは十分でないということである。 実現方式にもよるが、 十分なフイラ一 (非 キーヮ一ド) を収集しなければキーヮード抽出精度の低いシステムとなってしま ラ。  The second reason why it is difficult to collect keywords is that it is not enough to collect only the keywords themselves. Although it depends on the implementation method, a system with low key extraction accuracy is required unless sufficient fillers (non-key keys) are collected.
キーヮード収集が困難な第 3の理由は、 そもそも十分なキーヮードの収集が事 実上不可能なケースもあることである。 例えば、 キーワード抽出技術を、 Google (登録商標) や Yahoo! (登録商標) のような汎用検索システムと連携させる場合 には、 あらゆる単語がキーワードたり得る。 こうした場合は、 抽出可能なキーヮ ードを何らかの条件で制約するしかない。 よく用いられるのは、 名詞のみ抽出す るといった品詞等の単語属性に基づく制限である。 しかし、 実際には、 ユーザは 形容詞も検索したいと考えるかも知れない。 また、 同じ名詞でも検索される頻度 が著しく低いためにキーワードとして抽出される機会がない、 或いは、 別の単語 として抽出されることも考えられる。  The third reason why it is difficult to collect keywords is that there are cases where it is practically impossible to collect sufficient keywords. For example, when keyword extraction technology is linked with a general-purpose search system such as Google (registered trademark) or Yahoo! (registered trademark), every word can be a keyword. In such cases, the keywords that can be extracted must be constrained under certain conditions. Commonly used are restrictions based on word attributes such as parts of speech, such as extracting only nouns. In practice, however, the user may wish to search for adjectives as well. Also, because the frequency of searching for the same noun is extremely low, there is no opportunity to extract it as a keyword, or it may be extracted as another word.
キ一ヮ一ド収集が困難な第 4の理由は、 収集されたキ一ヮ一ドが実際にそのま まの形で発話されるとは限らない、 ということである。 キーワードの収集は、 通 常、 連携先システムが受理可能なキーワードをベースとして行われる。 前述した 例で言えば、 チケット予約システムと連携させる場合には、 チケット予約システ ムが受理可能なキーヮード(チケット番号やィベント名)を収集する。 ところが、 利用者は、 例えばイベント名に関して、 チケット予約システムが意図しない略称 を発話する可能性がある。 ある利用者はチケット番号を 2桁ごとに区切って発話 し、 別の利用者は 1桁ごとに 「の」 を間に挟んで読み上げるかも知れない。 The fourth reason why it is difficult to collect keys is that the collected keys are not always spoken in their actual form. Keywords are usually collected based on keywords that can be accepted by the partner system. In the above example, when linking with the ticket reservation system, collect the keywords (ticket number and event name) that the ticket reservation system can accept. However, the user, for example, for the event name, is an abbreviation that the ticket reservation system does not intend. There is a possibility of speaking. One user may utter a ticket number separated by two digits, and another user may read it out with “no” between each digit.
収集されたキーヮ一ドが実際にそのままの形で発話されるとは限らないという 問題は、 フイラ一 (非キーワード) の問題と近い。 しかし、 従来技術 (例えば、 特許文献 1や非特許文献 2参照。)で解決できないことは明らかである。なぜなら、 こうしたキーワードの発話表現 (キーワードの発話における変形表現) 、 元の キーワードと音響的にごく近いという仮定は成り立たない為である。  The problem that the collected keyboard keys are not actually spoken as they are is close to the problem of fillers (non-keywords). However, it is clear that the conventional technology (for example, see Patent Document 1 and Non-Patent Document 2) cannot solve the problem. This is because such an utterance expression of the keyword (a modified expression in the utterance of the keyword) and the assumption that it is acoustically close to the original keyword are not valid.
本発明の目的は、 連携先システムへの入力に適したキーヮ一ドを抽出すること ができるキーヮード抽出システムを構築する為に必要なビルディングブ口ックと して、 上述した用途に利用可能なキーヮード抽出モデルを容易に構築可能なキー ワード抽出モデル学習システム、 キーワード抽出システム、 情報入力システム、 情報検索システム、 キーワード抽出モデル学習方法、 キーワード抽出方法、 情報 入力方法、 情報検索方法およびキーワード抽出モデル学習プログラムを提供する ことである。  The object of the present invention is as a building block necessary for constructing a key extraction system capable of extracting a key phrase suitable for input to a cooperation destination system, and can be used for the above-described applications. Keyword extraction model learning system, keyword extraction system, information input system, information retrieval system, keyword extraction model learning method, keyword extraction method, information input method, information retrieval method, and keyword extraction model learning that can easily construct a keyword extraction model To provide a program.
本発明の他の目的は、 キーワードの発話における変形表現 (発話表現) を抽出 することができるキーワード抽出モデルを容易に構築可能なキーワード抽出モデ ル学習システム、 キーワード抽出システム、 情報入力システム、 情報検索システ ム、 キーワード抽出モデル学習方法、 キーワード抽出方法、 情報入力方法、 情報 検索方法およびキーワード抽出モデル学習プログラムを提供することにある。  Another object of the present invention is to provide a keyword extraction model learning system, a keyword extraction system, an information input system, and an information search, which can easily construct a keyword extraction model that can extract modified expressions (utterance expressions) in keyword utterances. It is to provide a system, a keyword extraction model learning method, a keyword extraction method, an information input method, an information search method, and a keyword extraction model learning program.
課題を解決するための手段  Means for solving the problem
本発明によるキーヮード抽出モデル学習システムは、 音声からキーヮードを抽 出するキーヮード抽出モデルを学習するキーヮード抽出モデル学習システムであ つて、 連携システムへの入力と、 前記入力に対応する音声とを用いて学習を行う キーワード抽出モデル学習手段を備えたことを特徴とする。  The key word extraction model learning system according to the present invention is a key word extraction model learning system for learning a key word extraction model for extracting a key word from voice, and learning using an input to a cooperative system and a voice corresponding to the input. It is characterized by having a keyword extraction model learning means.
連携システムへの入力は少なくともテキスト情報を含んでもよい。  The input to the linkage system may include at least text information.
連携システムへの入力に対応する音声は、 前記連携システムへの入力に対応す る一部と、 対応しない一部のいずれをも含んでもよい。  The voice corresponding to the input to the cooperation system may include both a part corresponding to the input to the cooperation system and a part not corresponding to the input.
キーヮード抽出モデル学習手段は、 連携システムへの入力に対して高い尤度を 返すようにキーヮード抽出モデルを学習してもよい。 キーヮード抽出モデル学習手段は、 連携システムへの入力に対応する音声また は対応する音声の一部に対して高い尤度を返すようにキーヮ一ド抽出モデルを学 習してもよレ、。 The keyword extraction model learning means may learn the keyword extraction model so as to return a high likelihood for the input to the cooperative system. The key extraction model learning means may learn the key extraction model so as to return a high likelihood to the voice corresponding to the input to the cooperation system or a part of the corresponding voice.
キーヮード抽出モデル学習手段は、 連携システムへの入力に対応しない音声ま たは対応しない音声の一部に対して低い尤度を返すようにキーヮード抽出モデル を学習してもよい。  The key extraction model learning means may learn the key extraction model so as to return a low likelihood to a part of the voice not corresponding to the input to the cooperation system or not corresponding to the input.
キーヮード抽出モデル学習手段は、 連携システムへのある入力に対応する音声 を、 該連携システムへの入力と類似した別の入力に関するモデル学習の学習デー タとして用いてもよレ、。  The keyword extraction model learning means may use speech corresponding to an input to the cooperative system as learning data for model learning related to another input similar to the input to the cooperative system.
キーヮード抽出モデル学習手段は、 連携システムへのある入力に対応する音声 を、 該連携システムへの入力と類似しなレ、別の入力に関するモデル学習の負例の 学習データとして用いてもよい。  The keyword extraction model learning means may use speech corresponding to an input to the cooperative system as learning data that is similar to the input to the cooperative system and is a negative example of model learning related to another input.
キーワード抽出モデル学習手段 (例えば、 キーワード抽出モデル学習手段 2 1 0 ) は、 予め与えられた制約に基づいて連携システムへの入力を 1つ以上のクラ スタに分類し、 各クラスタに関する学習をまとめて行ってもよい。  The keyword extraction model learning means (for example, the keyword extraction model learning means 2 1 0) classifies the input to the cooperation system into one or more clusters based on the constraints given in advance, and collects learning about each cluster. You may go.
キーワード抽出モデル学習手段 (例えば、 キーワード抽出モデル学習手段 2 1 0 ) が学習するキーワード抽出モデルは、 ある音声の一部がいずれかのキーヮー ドの発話であるかの尤度を返すキーワード区間モデル (例えば、 キーワード区間 抽出モデル) と、 ある音声の一部が各キーワードの発話であるかの尤度を返すキ ーヮード認識モデルと、 の 2種類のモデルからなり、 前記キーヮード抽出モデル 学習手段は、 前記 2種類のモデルを学習してもよい。  The keyword extraction model learned by the keyword extraction model learning means (for example, the keyword extraction model learning means 2 1 0) is a keyword interval model that returns the likelihood that a part of a certain speech is the utterance of one of the key words ( For example, the keyword extraction model) and a keyword recognition model that returns the likelihood that a part of speech is the utterance of each keyword, and the keyword extraction model learning means, Two types of models may be learned.
連携システムへの入力と、 前記入力に対応する可能性の高い音声の一区間を見 つけ出し、 この区間の音声と、 を用いて学習を行うキーワード抽出モデル学習手 段を備えてもよい。  There may be provided a keyword extraction model learning unit that finds an input to the cooperative system and a section of speech that is highly likely to correspond to the input, and performs learning using the speech of this section.
キーヮード抽出モデル学習手段は、 入力に対応する音声または前記入力に対応 する音声の書き起こしを用いて学習を行ってもよい。  The keyword extraction model learning means may perform learning using speech corresponding to the input or transcription of the speech corresponding to the input.
本発明によるキーワード抽出システムは、 請求項 1から請求項 1 1のうちのい ずれか 1項に記載のキーヮード抽出モデル学習手段によって学習したキーヮード 抽出モデルを用いることを特徴とする。 本発明による情報入力システム (例えば、 連携先システム 1 2 0 ) は、 請求項 1 2に記載のキーヮード抽出システムを用いることを特徴とする。 The keyword extraction system according to the present invention is characterized in that a keyword extraction model learned by the keyword extraction model learning means according to any one of claims 1 to 11 is used. An information input system according to the present invention (for example, cooperation destination system 1 2 0) is characterized by using the key word extraction system according to claim 12.
本発明による情報検索システム (例えば、 連携先システム 1 2 0 ) は、 請求項 An information search system according to the present invention (for example, cooperation destination system 1 2 0)
1 2に記載のキーヮード抽出システムを用いることを特徵とする。 1 Uses the keyword extraction system described in 2 above.
本発明によるキーワード抽出モデル学習方法は、 音声からキーヮードを抽出す るキーヮード抽出モデルを学習するキーヮード抽出モデル学習方法であって、 連 携システムへの入力と、 前記入力に対応する音声とを用いて学習を行うキーヮー ド抽出モデル学習ステップを含むことを特徴とする。  A keyword extraction model learning method according to the present invention is a keyword extraction model learning method for learning a keyword extraction model for extracting a keyword from speech, using an input to the linkage system and a speech corresponding to the input. It is characterized by including a key keyword extraction model learning step for performing learning.
連携システムへの入力は少なくともテキスト情報を含んでもよい。  The input to the linkage system may include at least text information.
連携システムへの入力に対応する音声は、 前記連携システムへの入力に対応す る一部と、 対応しない一部のいずれをも含んでもよい。  The voice corresponding to the input to the cooperation system may include both a part corresponding to the input to the cooperation system and a part not corresponding to the input.
キーヮード抽出モデル学習ステップで、 連携システムへの入力に対して高い尤 度を返すようにキ一ヮ一ド抽出モデルを学習してもよい。  In the key extraction model learning step, the key extraction model may be learned so as to return a high likelihood to the input to the cooperative system.
キーヮ一ド抽出モデル学習ステップで、 連携システムへの入力に対応する音声 または対応する音声の一部に対して高い尤度を返すようにキーヮード抽出モデル を学習してもよレ、。  In the key extraction model learning step, the key extraction model may be learned so as to return a high likelihood to the speech corresponding to the input to the cooperative system or a part of the corresponding speech.
キーヮード抽出モデル学習ステップで、 連携システムへの入力に対応しない音 声または対応しない音声の一部に対して低い尤度を返すようにキーヮ一ド抽出モ デルを学習してもよい。  In the key extraction model learning step, the key extraction model may be learned so that a low likelihood is returned for a voice that does not correspond to the input to the cooperation system or a part of the voice that does not correspond.
キーヮード抽出モデル学習ステップで、 連携システムへのある入力に対応する 音声を、 該連携システムへの入力と類似した別の入力に関するモデル学習の学習 データとして用いてもよい。  In the key word extraction model learning step, speech corresponding to an input to the cooperation system may be used as learning data for model learning related to another input similar to the input to the cooperation system.
キーヮード抽出モデル学習ステップで、 連携システムへのある 力に対応する 音声を、 該連携システムへの入力と類似しない別の入力に関するモデル学習の負 例の学習データとして用いてもよい。  In the key word extraction model learning step, speech corresponding to a certain force to the cooperation system may be used as learning data of a negative example of model learning regarding another input that is not similar to the input to the cooperation system.
キーヮード抽出モデル学習ステップで、 予め与えられた制約に基づいて連携シ ステムへの入力を 1つ以上のクラスタに分類し、 各クラスタに関する学習をまと めて行ってもよい。  In the key word extraction model learning step, the input to the cooperation system may be classified into one or more clusters based on a predetermined constraint, and learning about each cluster may be performed collectively.
キーヮード抽出モデル学習ステップで学習するキーヮード抽出モデルは、 ある 音声の一部がいずれかのキーウードの発話であるかの尤度を返すキーヮード区間 モデルと、 ある音声の一部が各キーヮードの発話であるかの尤度を返すキーヮー ド認識モデルと、 の 2種類のモデルからなり、 前記キーワード抽出モデル学習ス テツプで、 前記 2種類のモデルを学習してもよい。 There is a key extraction model to learn in the key extraction model learning step. A keyword interval model that returns the likelihood that a part of speech is an utterance of one of the keywords, and a keyword recognition model that returns the likelihood that a part of speech is an utterance of each keyword, The two types of models may be learned in the keyword extraction model learning step.
キーワード抽出モデル学習ステップで、 連携システムへの入力と、 前記入力に 対応する可能性の高い音声の一区間を見つけ出し、 この区間の音声と、 を用いて 学習を行ってもよい。  In the keyword extraction model learning step, an input to the cooperation system and a section of speech that is highly likely to correspond to the input may be found, and learning may be performed using the speech of this section.
キーヮード抽出モデル学習ステップで、 入力に対応する音声または前記入力に 対応する音声の書き起こしを用いて学習を行ってもよい。  In the key word extraction model learning step, learning may be performed using speech corresponding to the input or transcription of the speech corresponding to the input.
本発明によるキーヮード抽出方法は、 請求項 1 5から請求項 2 5のうちのいず れか 1項に記載のキーヮード抽出モデル学習方法で学習したキ一ヮ一ド抽出モデ ルを用いることを特徴とする。  The key word extraction method according to the present invention uses the key word extraction model learned by the key word extraction model learning method according to any one of claims 15 to 25. And
本発明による情報入力方法は、 請求項 2 6に記載のキーヮード抽出方法を用い ることを特徴とする。  An information input method according to the present invention uses the key word extraction method according to claim 26.
本発明による情報検索方法は、 請求項 2 6に記載のキーヮード抽出方法を用い ることを特徵とする。  The information search method according to the present invention is characterized by using the keyword extraction method according to claim 26.
本発明によるキーヮード抽出モデル学習プログラムは、 音声からキーヮードを 抽出するキーヮード抽出モデルを学習するためのキ一ヮ一ド抽出モデル学習プロ グラムであって、 コンピュータに、 連携システムへの入力と、 前記入力に対応す る音声とを用いて学習を行うキーヮード抽出モデル学習処理を実行させることを 特徴とする。  A key word extraction model learning program according to the present invention is a key word extraction model learning program for learning a key word extraction model for extracting a key word from speech, the computer input to the linkage system, and the input It is characterized by executing a key extraction model learning process in which learning is performed using speech corresponding to.
連携システムへの入力は少なくともテキスト情報を含んでもよい。  The input to the linkage system may include at least text information.
連携システムへの入力に対応する音声は、 前記連携システムへの入力に対応す る一部と、 対応しない一部のいずれをも含んでもよい。  The voice corresponding to the input to the cooperation system may include both a part corresponding to the input to the cooperation system and a part not corresponding to the input.
コンピュータに、 キーワード抽出モデル学習処理で、 連携システムへの入力に 対して高い尤度を返すようにキーヮード抽出モデルを学習する処理を実行させて もよい。  The computer may execute a keyword extraction model learning process to learn a keyword extraction model so as to return a high likelihood to the input to the cooperation system.
コンピュータに、 キーワード抽出モデル学習処理で、 連携システムへの入力に 対応する音声または対応する音声の一部に対して高い尤度を返すようにキーヮー ド抽出モデルを学習する処锂を実行させてもよい。 In order to return high likelihood to the computer for the speech corresponding to the input to the linkage system or a part of the corresponding speech in the keyword extraction model learning process. A process of learning the mode extraction model may be executed.
コンピュータに、 キーワード抽出モデル学習処理で、 連携システムへの入力に 対応しない音声または对応しない音声の一部に対して低い尤度を返すようにキー ヮード抽出モデルを学習する処理を実行させてもよい。  Even if the computer is made to perform the keyword extraction model learning process, the key extraction model learning process is executed so that a low likelihood is returned to a part of the voice that does not correspond to the input to the cooperation system or the voice that does not correspond. Good.
コンピュータに、 キーワード抽出モデル学習処理で、 連携システムへのある入 力に対応する音声を、 該連携システムへの入力と類似した別の入力に関するモデ ル学習の学習データとして用いる処理を実行させてもよい。  Even if the computer is made to perform the keyword extraction model learning process, the voice corresponding to the input to the cooperation system is used as the learning data for the model learning related to another input similar to the input to the cooperation system. Good.
コンピュータに、 キーワード抽出モデル学習処理で、 連携システムへのある入 力に対応する音声を、 該連携システムへの入力と類似しない別の入力に関するモ デル学習の負例の学習データとして用いる処理を実行させてもよい。  Executes processing that uses speech corresponding to an input to the linked system as learning data for a negative example of model learning related to another input that is not similar to the input to the linked system in the keyword extraction model learning process on the computer You may let them.
コンピュータに、 キーワード抽出モデル学習処理で、 予め与えられた制約に基 づいて連携システムへの入力を 1つ以上のクラスタに分類し、 各クラスタに関す る学習をまとめて行う処理を実行させてもよい。  Even if the computer classifies the input to the cooperation system into one or more clusters based on the constraints given in advance and executes the process to collect learning about each cluster in the keyword extraction model learning process. Good.
キーヮード抽出モデル学習処理で学習するキーヮード抽出モデルは、 ある音声 の一部がいずれかのキーヮードの発話であるかの尤度を返すキ一ヮ一ド区間モデ ルと、 ある音声の一部が各キーヮードの発話であるかの尤度を返すキーヮ一ド認 識モデルと、 の 2種類のモデルからなり、 コンピュータに、 前記キーワード抽出 モデル学習処理で、 前記 2種類のモデルを学習する処理を実行させてもよい。 コンピュータに、キーワード抽出モデル学習処理で、連携システムへの入力と、 前記入力に対応する可能性の高い音声の一区間を見つけ出し、この区間の音声と、 を用いて学習を行う処理を実行させてもよい。  The key extraction model trained by the key extraction model learning process is a key interval model that returns the likelihood that a part of a certain voice is the utterance of any key, and a part of a certain voice. It consists of two types of models: a key-based recognition model that returns the likelihood of a key word utterance, and causes a computer to execute the process of learning the two types of models in the keyword extraction model learning process. May be. In a keyword extraction model learning process, the computer finds an input to the linkage system and a section of speech that is highly likely to correspond to the input, and executes a process of learning using the speech of this section. Also good.
コンピュータに、 キーワード抽出モデル学習処理で、 入力に対応する音声また は前記入力に対応する音声の書き起こしを用いて学習を行う処理を実行させても よい。  You may make a computer perform the process which learns using the speech corresponding to an input or the transcription of the audio | voice corresponding to the said input by keyword extraction model learning process.
本発明によるキーワード抽出システムの好ましい一態様は、 例えば、 キーヮー ド抽出手段と、 そのキ一ヮ一ド抽出手段で利用可能なキーヮード抽出モデルを学 習するキーヮード抽出モデル学習手段とを備え、 キーヮード抽出モデル学習手段 は、 キーワード抽出システムの連携先システムへの入力テキス トと、 その入力に 対応する音声またはその音声の書き起こしとを学習データとして受け取り、 連携 先システムへの入力テキストと、 その音声または書き起こし、 さらに、 それらか ら推測される未知のテキストとをキーワードとみなし、 入力音声のある区間が該 キーヮードの丫可れかである尤度を返すキ一ヮ一ド抽出モデルを、 キーヮードごと に、 あるいは、 類似するキーワードの集合ごとに学習するよう動作することを特 徴とする。 A preferred embodiment of the keyword extraction system according to the present invention includes, for example, a keyword extraction means, and a keyword extraction model learning means for learning a keyword extraction model that can be used by the keyword extraction means. The model learning means receives the input text to the linked system of the keyword extraction system and the speech corresponding to the input or the transcription of the speech as learning data, and cooperates The input text to the destination system and its speech or transcription, and unknown text inferred from them, are considered as keywords, and the likelihood that a section of the input speech is a possibility of the key word is returned. It is characterized by operating a key extraction model for each key word or for each set of similar keywords.
またさらに、 本発明によるキーヮード抽出システムの好ましい他の一態様は、 例えば、 キーワード抽出モデルが高い尤度を示した音声に対して、 そのキ一ヮ一 ド抽出モデルが包含しているいくつかのキーヮードのうちのいずれであるかを識 別するキーワード識別手段を備え、 キーワード抽出モデル学習手段は、 キーヮー ド抽出モデルの学習で利用したものと同じ学習デ一タを用いて、 キーヮード識別 手段で利用可能なキ一ヮ一ド識別モデルを学習するよう動作することを特徴とす る。  Furthermore, another preferred embodiment of the key word extraction system according to the present invention is, for example, that some key word extraction models include voices for which the keyword extraction model shows a high likelihood. It has a keyword identification means to identify which one of the keywords, and the keyword extraction model learning means uses the same learning data as used for learning the keyword extraction model, and is used by the keyword identification means. It is characterized by operating to learn possible key identification models.
このような構成を採用し、 連携先システムへの入力およびそれに対応する音声 での表現(発話表現)とそれらの変形をキーヮードとして抽出することによって、 本発明の目的を達成することができる。  By adopting such a configuration and extracting the input to the cooperation destination system and the corresponding voice expression (utterance expression) and their variations as keywords, the object of the present invention can be achieved.
発明の効果 ■  Effects of the invention ■
本発明によれば、 連携先システムに適したキーヮード抽出を容易に実現できる ようになる。 その理由は、 そもそも連携先システムはキーワード抽出の結果とし て得られたテキストを入力として受け付けるのであるから、 逆に、 連携先システ ムが入力として受理可能なテキストをキーヮードとして抽出するようにすれば、 少なくとも連携先システムにとつて有意であると期待されるデータをキーワード 抽出の対象とすることができるためである。  According to the present invention, keyword extraction suitable for the cooperation destination system can be easily realized. The reason is that the cooperation destination system accepts the text obtained as a result of keyword extraction as input in the first place, and conversely, if the cooperation destination system extracts text that can be accepted as input as a keyword, This is because data that is expected to be significant for at least the partner system can be targeted for keyword extraction.
付け加えると、 こうしたテキストはキーワード抽出に頼らずともキー入力等で 連携先システムに入力することも可能である。 実際、 音声入力と並行してキー入 力やマウスによる多岐選択による入力 I Z F (インタフェース) をフロントェン ドに設けることは一般的に行われている。  In addition, these texts can be input to the linked system by key entry without relying on keyword extraction. In fact, it is common practice to provide an input I Z F (interface) on the front end in parallel with voice input by key input or multi-selection using the mouse.
また、 本発明のキーワード抽出によれば、 発話表現されたキーワードを抽出す ることが出来る。 連携先システムへの入力 (すなわちキーワード) に対応した音 声が得られれば、 その音声から、 キーワードがどのような発話表現に変形し得る のかというサンプルが得られる。 このサンプルを用いることで、 キーワードとそ の発話表現の両方に対応したキーワード抽出モデルを構築できる。 Further, according to the keyword extraction of the present invention, it is possible to extract a keyword expressed by utterance. If a voice corresponding to the input (ie, keyword) to the linked system is obtained, the keyword can be transformed into any utterance expression from that voice. A sample is obtained. By using this sample, it is possible to construct a keyword extraction model that supports both keywords and their utterance expressions.
ここで問題になるのは、 学習データとして連携先システムへの入力とその音声 だけを用いるとすると、 十分な柔軟性を持つモデルが構築できないという点であ る。 本発明のキーワード抽出システムでは、 連携先システムへの入力とその音声 (およびその書き起こし) をただ抽出対象キーヮードとして収集するのみではな く、 これらからのさらなる変形をも受理可能なキーヮード抽出モデルを学習する ことによって、 この問題に対処することができる。 図面の簡単な説明:  The problem here is that if only the input to the linked system and its speech are used as learning data, a model with sufficient flexibility cannot be constructed. The keyword extraction system of the present invention not only collects the input to the linked system and its speech (and its transcription) as the extraction target keyword, but also a key extraction model that can accept further variations from these. By learning, this problem can be addressed. Brief description of the drawings:
図 1は第 1の実施の形態の構成例を示すプロック図である。  FIG. 1 is a block diagram showing a configuration example of the first embodiment.
図 2は第 1の実施の形態におけるキーヮード抽出手段の動作の例を示すフロー チヤ一トである。  FIG. 2 is a flow chart showing an example of the operation of the key word extraction means in the first embodiment.
図 3は第 1の実施の形態におけるキーヮード抽出モデル学習手段の動作の例を 示すフローチヤ一トである。  FIG. 3 is a flowchart showing an example of operation of the keyword extraction model learning means in the first embodiment.
図 4は第 2の実施の形態の構成例を示すプロック図である。  FIG. 4 is a block diagram showing a configuration example of the second embodiment.
図 5は第 2の実施の形態におけるキーヮ一ド抽出システムの動作の例を示すフ 口—チヤ—トである。  FIG. 5 is a flowchart showing an example of the operation of the keypad extraction system according to the second embodiment.
図 6は第 2の実施の形態におけるキーヮード抽出モデル学習手段の動作の例を 示すフローチヤ一トである。  FIG. 6 is a flowchart showing an example of the operation of the keyword extraction model learning means in the second exemplary embodiment.
図 7は本実施例によるキーヮード抽出システムの構成例を示すプロック図であ る。 発明を実施するための最良の形態:  FIG. 7 is a block diagram showing a configuration example of the key word extraction system according to this embodiment. Best Mode for Carrying Out the Invention:
実施の形態 1 Embodiment 1
以下、 本発明の第 1の実施の形態を図面を参照して説明する。 図 1は、 第 1の 実施の形態の構成例を示すプロック図である。 図 1に示す第 1の実施の形態は、 音声からキ一ヮ一ドを抽出するキーヮード抽出システム 1 0 0と、 キーヮード抽 出モデル学習手段 1 i 0と、 抽出されたキーワードを入力として所定の動作を行 う連携先システム 1 2 0とを備える。 Hereinafter, a first embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration example of the first embodiment. In the first embodiment shown in FIG. 1, a keyword extraction system 1 0 0 for extracting a key word from speech, a key extraction model learning means 1 i 0, and a predetermined keyword as an input are input. Line action Cooperation destination system 1 2 0.
キーワード抽出システム 1 0 0は、 具体的には、 プログラムに従って動作する パーソナルコンピュータ等の情報処理装置によって実現される。 キーヮード抽出 システム 1 0 0は、 キーワード抽出手段 1 0 1と、 キーワード抽出モデル学習手 段 1 1 0によって学習されたキーヮード抽出モデル 1 0 2とを含む。 キーヮード 抽出モデノレ 1 0 2は、 音声からキーワードを抽出するモデルである。  Specifically, the keyword extraction system 100 is realized by an information processing apparatus such as a personal computer that operates according to a program. The keyword extraction system 100 includes a keyword extraction unit 10 0 1 and a keyword extraction model 1 0 2 learned by the keyword extraction model learning unit 1 1 0. The keyword extraction model 1 0 2 is a model for extracting keywords from speech.
キ一ヮ一ド抽出手段 1 0 1は、 入力した音声データに対してキーヮ一ド抽出モ デル 1 0 2を適用する。 キーワード抽出手段 1 0 1は、 キーワード抽出モデル 1 0 2が、 音声データのある区間に対して所定の閾値以上の尤度を返したならば、 その音声の区間をキーヮ一ド区間とし、 キーヮード抽出モデルがその区間に対し て最尤として返却したキーヮードを出力する。  The key map extraction means 1 0 1 applies the key key extraction model 1 0 2 to the input voice data. If the keyword extraction model 1 0 2 returns a likelihood that is greater than or equal to a predetermined threshold value for a section of speech data, the keyword extraction means 1 0 1 sets the speech section as a key section section, and extracts a keyword. The key word returned by the model as the maximum likelihood for the interval is output.
キーワード抽出手段 1 0 1力 S、 音声の一区間に対して抽出したとして出力する キーワードは、 唯 1つだけとは限らない。 まったく同じ音声の一区間について、 複数のキーワードを出力してもよい。 この場合、 キーワード抽出手段 1 0 1は、 連携先システム 1 2 0に、 キーワードだけでなく、 各々の抽出キーワードに対す る尤度等の付加情報をあわせて出力すると好適である。  Keyword extraction means 1 0 1 Force S, The number of keywords to be output as extracted for one section of speech is not necessarily one. Multiple keywords may be output for one section of the exact same voice. In this case, it is preferable that the keyword extraction means 1 0 1 outputs not only the keyword but also additional information such as likelihood for each extracted keyword to the cooperation destination system 1 2 0.
キーワード抽出モデル学習手段 1 1 0は、 具体的には、 プログラムに従って動 作するパーソナルコンピュータ等の情報処理装置によって実現される。 キ一ヮ一 ド抽出モデル学習手段 1 1 0は、 連携先システム 1 2 0への入力と、 音声データ と、 これらを対応付ける情報 (対応情報) とを入力する。 キーワード抽出モデル 学習手段 1 1 0は、 後述するアルゴリズムに従って、 連携先システム 1 2 0への 入力をキーワードとみなし、 連携先システム 1 2 0への入力、 音声データおよび 対応情報に基づいて、 音声データに含まれるキーヮ一ドまたはその発話表現を推 定するキーワード抽出モデル 1 0 2を学習する。 なお、 本実施の形態において、 キーワード抽出モデル学習システムは、キーワード抽出モデル学習手段 1 1 0と、 連携先システム 1 2 0への入力、 音声データおよびこれらを対応付ける情報を入 力する手段と、 キーヮード抽出モデル 1 0 2への出力を行う手段とによって実現 される。  Specifically, the keyword extraction model learning means 110 is realized by an information processing apparatus such as a personal computer that operates according to a program. The key extraction model learning means 1 1 0 inputs an input to the cooperation destination system 1 2 0, audio data, and information (corresponding information) for associating them. The keyword extraction model learning means 1 1 0 considers the input to the link destination system 1 2 0 as a keyword according to the algorithm described later, and based on the input to the link destination system 1 2 0, the audio data and the corresponding information The keyword extraction model 1 0 2 is estimated to estimate the key word contained in or the utterance expression. In the present embodiment, the keyword extraction model learning system includes a keyword extraction model learning means 110, a means for inputting input to the cooperation destination system 120, voice data, and information for associating them, and a keyword. This is realized by means for outputting to the extraction model 10 2.
連携先システム 1 2 0は、 具体的には、 プログラムに従って動作するパーソナ ルコンピュータ等の情報処理装置によって実現される。連携先システム 1 2 0は、 音声からキ一ヮ一ドを抽出するキーヮード抽出手段 1 0 1またはその他の手段か ら、 テキストをベースとする入力を受け、 定められた何らかの動作を行う。 連携 先システム 1 2 0は、 例えば、 キーワード抽出システム 1 0 0によって入力され たキーワードに基づいて各種処理を実行する情報入力システムであってもよい。 また、 連携先システム 1 2 0は、 例えば、 キーワード抽出システム 1 0 0によつ て入力されたキーヮードに基づいて情報検索を行う情報検索システムであっても よい。 Specifically, the linked system 1 2 0 is a personal computer that operates according to a program. This is realized by an information processing apparatus such as a computer. The cooperation destination system 120 receives text-based input from the key extraction means 110 or other means for extracting a key word from speech and performs some predetermined operation. The link destination system 1 2 0 may be, for example, an information input system that executes various processes based on the keywords input by the keyword extraction system 1 0 0. Further, the cooperation destination system 120 may be an information search system that performs an information search based on a keyword input by the keyword extraction system 100, for example.
ここで、 連携先システム 1 2 0への入力とは、 例えば、 連携先システム 1 2 0 に入力されたテキスト情報である。 連携先システム 1 2 0に、 複数の異なる属性 を含む入力があった場合、 その属性を含めてキーワード抽出モデル学習手段 1 1 0への入力として良い。 また、 連携先システム 1 2 0への入力と音声データとを 対応付ける情報とは、 例えば、 音声中のどの区間がその入力に対応する発話区間 であるかを示す時間情報や、 その発話の書き起こしなどを言う。  Here, the input to the cooperation destination system 1 2 0 is, for example, text information input to the cooperation destination system 1 2 0. When there is an input including a plurality of different attributes in the cooperation destination system 1 2 0, the input including the attributes may be input to the keyword extraction model learning means 1 1 0. The information that associates the input to the linked system 1 2 0 with the voice data includes, for example, time information indicating which section in the voice is the utterance section corresponding to the input, and transcription of the utterance. Say etc.
キーワード抽出モデル 1 0 2は、 所定の手続きに基づいて音声から取り出され た特徴量に対して、 所定の手続きに基づいた照合処理を掛けることにより、 音声 のある区間に既知のキーヮードのいずれかまたはそのキーヮードの発話表現のい ずれかが含まれているかどうかを算出することができる。 キーヮード抽出モデル 1 0 2を、 各キーワード、 キーワードの発話表現について 1つずつ用意しても良 いし、 それらの全部または一部を同時にモデル化できるような単一のモデルまた は複数個のモデルを用いるようにしても良い。  The keyword extraction model 1 0 2 applies either a known keyword to a certain section of speech by applying a matching process based on a predetermined procedure to the feature amount extracted from the speech based on a predetermined procedure. It is possible to calculate whether any of the utterance expressions of the keyword is included. A keyword extraction model 1 0 2 may be prepared for each keyword and keyword utterance expression, and a single model or a plurality of models that can model all or a part of them may be prepared. It may be used.
キーワード抽出モデル 1 0 2は、 少なくとも以下の条件を満たす。 すなわち、 キーワード抽出モデル 1 0 2は、 所定の手続きで音声の一区間を与えられると、 予め与えられた一つまたは複数のキ一ヮ一ドのいずれかに一致する文字列、 音素 列、 音響特徴量列に対して、 高い尤度を示す何らかの値を返す。  The keyword extraction model 1 0 2 satisfies at least the following conditions. In other words, the keyword extraction model 1 0 2 is provided with a section of speech in a predetermined procedure, a character string, a phoneme string, a sound that matches one of a predetermined keyword or a plurality of keywords. Returns some value indicating high likelihood for the feature string.
また、 キーワード抽出モデル 1 0 2は、 あるキーワードに対応する発話表現と して与えられた文字列、 音素列、 音響特徴量列に対しても、 そのキーワードに準 じる高い尤度を示す何らかの値を返す。  In addition, the keyword extraction model 10 2 has a certain likelihood that a string, phoneme sequence, and acoustic feature sequence given as an utterance expression corresponding to a keyword show a high likelihood according to the keyword. Returns a value.
さらに、 キーワード抽出モデル 1 0 2は、 既知のキーワードやキーワードに対 応する発話表現の文字列、 音素列、 音響特徴量列のどれとも一致しないが、 いず れかに類似する文字列、 音素列、 音響特徵量列に対しては、 そのキーワードおよ びキーヮ一ドの発話表現に準じるやや高い尤度を示す何らかの値を返す。 In addition, the keyword extraction model 1 0 2 can be applied to known keywords and keywords. For a character string, phoneme string, or acoustic feature quantity column that does not match any of the corresponding utterance expression string, phoneme string, or acoustic feature string, the keyword and key Returns some value indicating a slightly higher likelihood according to the utterance expression.
そして、 キーワード抽出モデル 1 0 2は、 上記のいずれにも当てはまらない文 字列、 音素列、 音響特徴量列に対しては低い尤度を返す。  The keyword extraction model 10 2 returns a low likelihood for character strings, phoneme strings, and acoustic feature strings that do not fall under any of the above.
キーワード抽出手段 1 0 1が音声の一区間に対して用いる尤度は、 何れかのキ 一ワードに関するキーワード抽出モデル 1 0 2の尤度 (=距離) を直接用いるだ けでなく、 何らかの手段で正規化処理を施しても良い。 また、 キーワード抽出手 段 1 0 1は、 閾値による棄却処理を、 何らかの棄却手段を用いて行う構成として も良い。例えば、ある時間内に発話された複数の音声に対する抽出キーヮ一ドが、 ある特定の組であるか否かに基づいて棄却するなどの手段を用いることができる。 また、 キーワード抽出モデル学習手段 1 1 0は、 連携システムへの入力に対して 高い尤度を返すようにキーワード抽出モデルを学習してもよい。  The likelihood that the keyword extraction means 1 0 1 uses for a section of speech is not limited to using the likelihood (= distance) of the keyword extraction model 1 0 2 for any key word directly, but by any means. Normalization processing may be performed. Further, the keyword extraction means 1 0 1 may be configured such that the rejection process based on the threshold is performed using some rejection means. For example, it is possible to use means such as rejecting based on whether or not the extracted key keys for a plurality of voices spoken within a certain time are a specific set. Further, the keyword extraction model learning means 110 may learn the keyword extraction model so as to return a high likelihood for the input to the cooperation system.
次に、 図面を参照して第 1の実施の形態の動作について説明する。 まず、 第 1 の実施の形態のキーワード抽出手段 1 0 1の動作について説明する。 図 2は、 第 1の実施の形態におけるキーワード抽出手段 1 0 1の動作の例を示すフローチヤ ートである。 なお、 キーワード抽出モデル 1 0 2として、 予め初期のキーワード 抽出モデルまたはキーワード抽出モデル学習手段 1 1 0によって学習されたキー ヮード抽出モデルが与えられているものとする。  Next, the operation of the first embodiment will be described with reference to the drawings. First, the operation of the keyword extracting means 10 1 according to the first embodiment will be described. FIG. 2 is a flowchart showing an example of the operation of the keyword extracting means 100 1 in the first embodiment. It is assumed that an initial keyword extraction model or a keyword extraction model previously learned by the keyword extraction model learning means 110 is given as the keyword extraction model 10 2.
キーワード抽出手段 1 0 1の動作は、 キーワード抽出モデル 1 0 2をどのよう に選ぶかによつて具体的な挙動が異なる。  The operation of the keyword extraction means 1 0 1 differs in specific behavior depending on how the keyword extraction model 1 0 2 is selected.
キーワード抽出モデル 1 0 2が、 音響特徴量列に対する尤度を算出するモデル である場合、 キーワード抽出手段 1 0 1は、 入力された音声信号から音響特徴量 を算出する (ステップ S 1 0 1 )。 次に、 キーワード抽出手段 1 0 1は、 ステップ S 1 0 5に移行し、 ステップ S 1 0 1で求めた入力音響特徴量列をキーヮード抽 出モデル 1 0 2に入力する。  If the keyword extraction model 10 2 is a model that calculates the likelihood for the acoustic feature quantity sequence, the keyword extraction means 1 0 1 calculates the acoustic feature quantity from the input speech signal (step S 1 0 1). . Next, the keyword extracting means 1 0 1 proceeds to step S 1 0 5, and inputs the input acoustic feature quantity sequence obtained in step S 1 0 1 to the keyword extraction model 1 0 2.
キーワード抽出モデル 1 0 2が、 音素列に対する尤度を算出するモデルである 場合、 キーワード抽出手段 1 0 1は、 入力された音声信号から音響特徴量を算出 する (ステップ S 1 0 1 )。 次に、 キーワード抽出手段 1 0 1は、 求めた入力音響 特徴量列が、既知のどのような音素に近いかを計算する (ステップ S 1 0 2 ) D そ うしてステップ S 1 0 5に移行し、 求めた音素列と音素列の各音素に対する入力 音響特徴量の距離をキーワード抽出モデル 1 0 2に入力する。 When the keyword extraction model 102 is a model for calculating the likelihood for the phoneme sequence, the keyword extraction means 101 calculates the acoustic feature quantity from the input speech signal (step S 1 0 1). Next, the keyword extraction unit 1 0 1 Calculate what kind of phoneme the feature sequence is close to (Step S 1 0 2) D Then, go to Step S 1 0 5, and find the input phoneme for each phoneme of the obtained phoneme sequence and phoneme sequence The feature distance is input to the keyword extraction model 1 0 2.
キーワード抽出モデル 1 0 2力 S、 文字列に対する尤度を算出するモデルである 場合、 キーワード抽出手段 1 0 1は、 入力された音声信号から音響特徵量を算出 する (ステップ S 1 0 1 )。音響特徴量として、パワー、 Δパワー、 Δ Δ、 ピッチ、 ケプス トラム、 Δケプス トラムなどを利用することができる。 次に、 キーワード 抽出手段 1 0 1は、 求めた入力音響特徴量列が、 既知のどのような音素に近いか を計算する (ステップ S 1 0 2 )。 さらに、 ステップ S 1 0 2で求めた音素列が既 知のどのような音節列または単語列に近いかを計算する (ステップ S 1 0 3 )。 そ うしてステップ S 1 0 5に移行し、 求めた音節列または単語列とそれらに対する 尤度とをキーヮード抽出モデル 1 0 2に入力する。  If the model is a model for calculating the likelihood for a keyword extraction model 10 2 force S and a character string, the keyword extraction means 1 0 1 calculates an acoustic feature quantity from the input speech signal (step S 1 0 1). As acoustic features, power, Δ power, Δ Δ, pitch, cepstrum, Δ cepstrum, etc. can be used. Next, the keyword extracting means 1 0 1 calculates what kind of known phoneme the obtained input acoustic feature sequence is close to (step S 1 0 2). Further, it is calculated what kind of known syllable string or word string is the phoneme string obtained in step S 1 0 2 (step S 1 0 3). Then, the process proceeds to step S 1 0 5, and the obtained syllable string or word string and its likelihood are input to the keyword extraction model 1 0 2.
キーワード抽出モデル 1 0 2カ さらにメタな特徴量に対する尤度を算出する モデルである場合は、 ステップ S 1 0 1〜S 1 0 3の後、 そのメタ特徴量を求め て (ステップ S 1 0 4 )、 キーヮード抽出モデル 1 0 2に入力する (ステップ S 1 0 5 )。 メタ特徴量とは、 例えば、 品詞情報、 直近のキーワード抽出結果、 音素事 後確率、 単語事後確率など、 ステップ S 1 0 3で求めた 1つ又は複数の文字列を 元に算出される特徴量を言う。  Keyword extraction model 1 0 2 If the model is a model that calculates the likelihood for a meta feature, the meta feature is obtained after steps S 1 0 1 to S 1 0 3 (step S 1 0 4 ), And input to the keyword extraction model 1 0 2 (step S 1 0 5). Meta features are, for example, feature values calculated based on one or more character strings obtained in step S 1 0 3 such as part-of-speech information, recent keyword extraction results, phoneme posterior probabilities, and word posterior probabilities. Say.
キーワード抽出モデル 1 0 2は、 上記の音響特徴量列、 音素列、 文字列、 メタ 特徴量列のうちの 1つ以上の組み合わせに対する尤度を算出するモデルであって も良い。 その場合、 キーワード抽出手段 1 0 1は、 ステップ S 1 0 1〜S 1 0 4 を適宜経由した後、 必要な情報をステップ S 1 0 5で入力する。  The keyword extraction model 10 2 may be a model that calculates the likelihood for one or more combinations of the above-described acoustic feature string, phoneme string, character string, and meta feature string. In that case, the keyword extracting means 1 0 1 inputs necessary information in step S 1 0 5 after appropriately passing through steps S 1 0 1 to S 1 0 4.
また、 キーワード抽出手段 1 0 1は、 ステップ S 1 0 1〜S 1 0 5の処理を必 要に応じてパイプライン実行するようにしても良い。 パイプライン実行すること で、 キーワード抽出処理時間 (スループット) を短縮できるとともに、 適当な枝 狩り処理を併用することで、 不要な計算を削減することができる。 例えば、 音素 列 Xから文字列 Yが得られるとき、 音素列 Xに対する尤度が所定の枝狩り閾値を 下回ったなら、 文字列 Yの尤度計算をスキップできる。  Further, the keyword extraction means 10 01 may execute the processing of steps S 1 0 1 to S 1 0 5 in a pipeline as necessary. By executing the pipeline, the keyword extraction processing time (throughput) can be shortened, and unnecessary computation can be reduced by using an appropriate branch hunting process together. For example, when the string Y is obtained from the phoneme string X, the likelihood calculation of the string Y can be skipped if the likelihood for the phoneme string X falls below a predetermined branch hunting threshold.
キーヮ一ド抽出手段 1 0 1は、 ステップ S 1 0 1〜S 1 0 4で入力音声から必 要な情報を算出したのち、 ステップ S 1 0 5で、 キーワード抽出モデル 1 0 2と の照合を行う。 その結果、 音声の一区間に対するキ一ウード抽出モデル 1 0 2に よる尤度が算出される。 Key key extraction means 1 0 1 is required from the input voice in steps S 1 0 1 to S 1 0 4. After calculating the necessary information, in step S 1 0 5, matching with the keyword extraction model 1 0 2 is performed. As a result, the likelihood by the keyword extraction model 10 2 for one section of speech is calculated.
ステップ S 1 0 6において、 キーワード抽出手段 1 0 1は、 ステップ S 1 0 5 で算出ざれた尤度の棄却判定を行う。 例えば、 キーワード抽出手段 1 0 1は、 キ 一ワード抽出モデル 1 0 2が代表するいずれかのキーワードに対して、 所定の閾 値を超える尤度が得られた場合、 そのキーワードが抽出されたとみなす。  In step S 1 0 6, the keyword extraction means 1 0 1 makes a rejection decision of the likelihood not calculated in step S 1 0 5. For example, the keyword extraction means 1001 considers that a keyword has been extracted if a likelihood exceeding a predetermined threshold value is obtained for any of the keywords represented by the keyword extraction model 1002. .
次に、 第 1の実施の形態のキーワード抽出モデル学習手段 1 1 0の動作につい て説明する。 図 3は、 第 1の実施の形態におけるキーワード抽出モデル学習手段 1 1 0の動作の例を示すフローチャートである。  Next, the operation of the keyword extraction model learning unit 110 according to the first embodiment will be described. FIG. 3 is a flowchart showing an example of the operation of the keyword extraction model learning means 110 in the first embodiment.
キーワード抽出モデル学習手段 1 1 0の動作は、 キーワード抽出モデル 1 0 2 をどのように選ぶかによつて具体的な挙動が異なる。  The specific operation of the keyword extraction model learning means 1 1 0 differs depending on how the keyword extraction model 1 0 2 is selected.
まず、 ステップ S 2 0 1で、 初期状態のキーワード抽出モデル (初期モデル) が与えられる。 なお、 初期状態のキーワード抽出モデルは、 例えば、 プログラム の初期値として与えられる。 事前に、 キーワードの一部またはすべてが既知であ る場合、 または、 キーワードとなる可能性の高いテキスト情報がある程度入手可 能である場合は、 それらを用いて初期モデルを構築する。 そのような情報がまつ たく入手できない場合は、 空の初期モデルを構築する。 初期モデルとして、 既に 学習済みのモデルが与えられてもよく、 この場合、 キーワード抽出モデル学習手 段 1 1 0は、 新たな学習データに対する追加の学習を行う。  First, in step S 2 0 1, an initial keyword extraction model (initial model) is given. The keyword extraction model in the initial state is given as an initial value of the program, for example. If some or all of the keywords are known in advance, or if text information that is likely to be keywords is available to some extent, an initial model is built using them. If no such information is available, build an empty initial model. An already learned model may be given as an initial model. In this case, the keyword extraction model learning unit 110 performs additional learning on new learning data.
キーワード抽出モデル学習手段 1 1 0は、 学習データとして、 連携先システム への入力と、 それに対応する音声データと、 それらを対応付ける情報とを受け取 る (ステップ S 2 0 2 )。 以下、 キーワード抽出モデル学習手段 1 1 0に学習デ一 タとして渡された情報であって、 連携先システム 1 2 0に入力されたテキスト情 報を、 正則キーワード (キーワードの正則な表現とみなすため) と記述する。 こ こで、 音声は、 正則キーワードに対応する発話そのものである力、 少なくともそ のような発話を含むものとする。 また、 正則キーワードと対応する音声を対応付 ける情報とは、 例えば、 音声信号中のどの区間が正則キーワードの発話表現であ るかを示す時刻情報などを含む。 あるいは、 正則キーワードの発話表現の書き起 こし文字列を含んでも良い。 The keyword extraction model learning means 110 receives, as learning data, an input to the cooperation destination system, speech data corresponding to the input, and information for associating them (step S 2 0 2). In the following, the text information input to the collaborative system 1 2 0 as the learning data that is passed to the keyword extraction model learning means 1 1 0 as regular data (in order to consider it as a regular expression of keywords) ). Here, it is assumed that the speech includes at least such an utterance, which is the utterance itself corresponding to the regular keyword. The information for associating the speech corresponding to the regular keyword includes, for example, time information indicating which section in the speech signal is the utterance expression of the regular keyword. Or, write a regular keyword utterance expression You may include a string of characters.
ある正則キーヮードと、 その正則キーヮードに対応付けられた音声との組は、 正則キーワードに応じて自動的に見つけ出すこともできる。 例えば、 キーワード 抽出モデルが十分に学習されているなら、 ある正則キーヮードを出力しうる発話 音声のバリエーションが得られている。 そこで、 その正則キーワードに対応する 音声区間が含まれていることが分かっている音声を与えれば、 キーヮ一ド抽出モ デル学習手段 1 1 0は、 この音声の中から、 前記バリエ一シヨンの何れかの発話 が行われている区間を抽出することができる。 このようにして得られた学習デ一 タ対は、 音声の音響的揺らぎ (例えば、 話者性に由来するものなど) に対する頑 健性を高めるための学習データとして利用できる。  A pair of a regular key and a voice associated with the regular key can be automatically found according to the regular keyword. For example, if the keyword extraction model is sufficiently learned, a variation of spoken speech that can output a regular key word is obtained. Therefore, if a voice that is known to contain a voice section corresponding to the regular keyword is given, the key-key extraction model learning means 1 1 0 can select any of the variations from the voice. It is possible to extract the section where such utterances are made. The learning data pairs obtained in this way can be used as learning data for enhancing robustness against acoustic fluctuations of speech (for example, those derived from speaker characteristics).
キーワード抽出モデル 1 0 2が、 音響特徴量列に対する尤度を算出するモデル である場合、 キーワード抽出モデル学習手段 1 1 0は、 学習データとして入力さ れた音声信号から音響特徴量を算出する (ステップ S 2 0 3 )。 キーワード抽出モ デル 1 0 2が、 音素列に対する尤度を算出するモデルである場合、 キーワード抽 出モデル学習手段 1 1 0は、 音響特徴量を元に音素列とその距離を算出する (ス テツプ S 2 0 4 )。 さらに、 キーワード抽出モデル 1 0 2力 文字列に対する尤度 を算出するモデルである場合は、 キーワード抽出モデル学習手段 1 1 0は、 この 音素列を元に文字列とその尤度を算出する (ステップ S 2 0 5 )。 またさらに、 キ 一ワード抽出モデル 1 0 2が、 メタ特徴量に対する尤度を算出するモデルである 場合は、 キーワード抽出モデル学習手段 1 1 0は、 文字列を元にメタ特徴量とそ の尤度を算出する (ステップ S 2 0 6 )。  When the keyword extraction model 1 0 2 is a model for calculating the likelihood for the acoustic feature quantity sequence, the keyword extraction model learning means 1 1 0 calculates the acoustic feature quantity from the speech signal input as learning data ( Step S 2 0 3). If the keyword extraction model 1 0 2 is a model that calculates the likelihood for a phoneme sequence, the keyword extraction model learning means 1 1 0 calculates the phoneme sequence and its distance based on the acoustic features (step S 2 0 4). Further, in the case of a model that calculates the likelihood for the keyword extraction model 1 0 2 force character string, the keyword extraction model learning means 1 1 0 calculates the character string and its likelihood based on this phoneme string (step S 2 0 5). Furthermore, when the key word extraction model 10 2 is a model for calculating the likelihood for the meta feature quantity, the keyword extraction model learning means 1 1 0 uses the meta feature quantity and its likelihood based on the character string. The degree is calculated (step S 2 0 6).
ステップ S 2 0 3〜S 2 0 6の処理の詳細は、 キーヮ一ド抽出手段 1 0 1にお けるステップ S 1 0 1〜: I 0 4の処理と同様である。  The details of the processing of steps S 2 0 3 to S 2 0 6 are the same as the processing of steps S 1 0 1 to: I 0 4 in the key record extraction means 1 0 1.
次に、 キーワード抽出モデル学習手段 1 1 0は、 正則キーワードの発話表現に 対応する音声の一区間に関して求められた音響特徴量、 音素列、 文字列、 メタ特 徵量などを受理するよう、 キーワード抽出モデル 1 0 2を拡張する (ステップ S 2 0 7 )。 このとき、 拡張の元となった発話表現ではなく、 その発話表現の正則キ ーヮードがマッチしたとして照合結果を出力するようにモデルを拡張する。  Next, the keyword extraction model learning means 1 1 0 is configured to accept the acoustic feature value, phoneme string, character string, meta feature value, etc. obtained for one section of speech corresponding to the utterance expression of the regular keyword. The extraction model 1 0 2 is expanded (step S 2 0 7). At this time, the model is extended so that the collation result is output, assuming that the regular key of the utterance expression is matched, not the utterance expression that is the source of the extension.
例えば、 各正則キ一ヮ一ドを HMMでモデル化して並列に並べたキーヮードネ ットワーク型のモデルの場合、ある正則キーヮ一ドの発話表現に対する HMMは、 もとの正則キーワードの HMMと並列に配置される。 ここで、 この発話表現 HM Mを通過した場合の尤度は、 その正則キーヮード HMMを通過した場合の尤度と して扱われる。 また、 木構造辞書に基づくキーワード抽出モデルである場合、 木 構造の葉にいずれの正則キーヮードであるかを示す情報が付加される。 ここで、 ある正則キーヮードの発話表現に対応する葉に付加される情報として、 その発話 表現のもととなる正則キーヮードを示す情報が与えられる。 For example, each of the regular keys is modeled by an HMM and arranged in parallel. In the case of a network model, the HMM for the utterance representation of a regular key key is placed in parallel with the original regular keyword HMM. Here, the likelihood of passing through this utterance expression HMM is treated as the likelihood of passing through the regular keyboard HMM. In the case of a keyword extraction model based on a tree structure dictionary, information indicating which regular key word is added to the leaves of the tree structure. Here, as information added to the leaf corresponding to the utterance expression of a certain regular key word, information indicating the regular key word that is the basis of the utterance expression is given.
キーワード抽出モデル 1 0 2が、 文字列などの非音響的入力に対する尤度を算 出するものである場合は、 さらにステップ S 2 0 8で、 学習データとして与えら れた正則キーヮードそのものに対するモデルの拡張を行ってよい。  If the keyword extraction model 1 0 2 calculates the likelihood for a non-acoustic input such as a character string, then in step S 2 0 8, the model for the regular key word itself given as training data is used. Extensions may be made.
文字列に基づくモデルであれば、 正則キ,一ヮ―ド文字列をそのまま用いる。 音 節列に基づくモデルであれば、 正則キーヮードに任意の読み付け処理を施した後 に学習を行う。 読み付け処理には、 例えば認識用辞書を利用する方法や、 汎用の 形態素解析器を利用する方法が考えられる。 音素列に基づくモデルであれば、 同 様に所定の方法で読み情報を音素列に変換する。 メタ情報に関しては、 正則キー ワードから取得できる範囲のものであれば、 同様に学習を行う。 例えば、 品詞や 文字種は正則キーワードから取り出せる情報であるので、 こうしたメタ情報を用 いるモデルであれば、 正則キーワード自体も学習できる。 一方で、 例えば、 事後 確率を用いるモデルでは、 正則キーワードに対する学習はできない。 また、 正則 キーワードと音声データとを对応付ける情報が、 その正則キーヮードの発話表現 の書き起こし文字列を含む場合は、 この文字列表現も受理できるようにキ一ヮ一 ド抽出モデル 1 0 2を拡張しても良い。 これが可能な条件と手続きは正則キーヮ 一ドに準じる。  If the model is based on a character string, the regular key and the first character string are used as they are. In the case of a model based on a syllable string, learning is performed after arbitrary reading processing is applied to the regular keyboard. For the reading process, for example, a method using a recognition dictionary or a method using a general-purpose morphological analyzer can be considered. In the case of a model based on a phoneme string, the reading information is similarly converted into a phoneme string by a predetermined method. For meta information, if it is within the range that can be obtained from regular keywords, learning is performed in the same way. For example, parts of speech and character types are information that can be extracted from regular keywords. Therefore, regular keywords themselves can be learned if the model uses such meta information. On the other hand, for example, a model that uses posterior probabilities cannot learn regular keywords. In addition, if the information that correlates the regular keyword with the speech data includes a transcription character string of the utterance expression of the regular key word, the key word extraction model 1 0 2 so that this character string expression can also be accepted. May be extended. The conditions and procedures for which this is possible follow the regular key rules.
ステップ S 2 0 9で、 さらに、 キーワード抽出モデル学習手段 1 1 0は、 ステ ップ S 2 0 7におけるモデルの拡張を他のキーヮードに対して伝播可能である場 合、 モデルの拡張を伝播する。 例えば、 キーワード抽出モデル 1 0 2が木構造辞 書に基づくモデルである場合、 木のある深さの節からいくつか先の深さの節へ至 る f 遷移が追加されたならば、 その深さまでの構造を共有する部分木に対してこ の拡張を伝播する (共有される)。 さらに、 この ε遷移が結ぶ節と同じ深さにある 節間に同様の ε遷移を追加しても良い。 In step S 2 0 9, the keyword extraction model learning means 1 1 0 further propagates the model extension if the model extension in step S 2 0 7 can be propagated to other keys. . For example, if the keyword extraction model 1 0 2 is a model based on a tree structure dictionary, if f transitions from a node at a certain depth of the tree to a node at some depth are added, the depth This extension is propagated (shared) to the subtree sharing the previous structure. Furthermore, this ε transition is at the same depth as the connecting node A similar ε transition may be added between nodes.
学習データとして与えられた正則キーヮードが、 単に文字列を与えるだけでな く追加の属性を持つ場合、 ステップ S 2 0 9での拡張の伝播は、 同一属性または 近似する属性を持つキーワードに限定して行っても良い。 例えば、 連携先システ ム 1 2 0がチケット番号とアーティスト名を入力として受け付けるのであれば、 新たに学習データとしてチケット番号とその発話表現が与えられた場合、 キーヮ ード抽出モデル 1 0 2のアーティスト名に関する部分には上記の伝播が行われな いようにしてもよい。  If the regular key word given as training data has additional attributes than just giving a string, the propagation of the extension in step S 2 0 9 is limited to keywords with the same or similar attributes. You may go. For example, if the cooperation destination system 1 2 0 accepts the ticket number and artist name as input, and the ticket number and its utterance expression are newly given as learning data, the artist in the key extraction model 1 0 2 The above propagation may not be performed on the part related to the name.
ステップ S 2 0 7、 S 2 0 8および S 2 0 9におけるモデルの拡張では、 単に 学習データを受理するようモデルを拡張するだけでなく、 その拡張によつて受理 可能となつた正則キーワードおよび発話表現に対して与えられる尤度を調整する 為の手続きを同時に行ってもよい。 例えば、 木構造辞書に基づくモデルでは、 ス テツプ S 2 0 8で拡張された枝に対してはペナルティなしとし、 ステップ S 2 0 7で拡張された枝には軽いペナルティを付カ卩し、 さらにステップ S 2 0 9で拡張 された枝には重いペナルティを付加する、 といった処理を行ってもよい。  The expansion of the model in steps S 2 0 7, S 2 0 8 and S 2 0 9 does not simply extend the model to accept the training data, but also the regular keywords and utterances that are accepted by the extension. A procedure for adjusting the likelihood given to an expression may be performed simultaneously. For example, in the model based on the tree structure dictionary, there is no penalty for the branch expanded in step S 2 0 8, and the branch expanded in step S 2 0 7 is given a light penalty. Processing such as adding a heavy penalty to the branch expanded in step S 2 09 may be performed.
キーワード抽出モデル 1 0 2が、 正例だけでなく負例も用いて学習されるよう なものである場合、 キーワード抽出モデル学習手段 1 1 0は、 ステップ S 2 1 0 で、 正則キーヮードの発話に対応しない音声部位に対するグラフの学習を行うよ うにしても良い。 例えば、 キーワードネットワーク型モデルで、 各キーワードに 对して S VMのような識別器を用意するようなモデルである場合、 負例、 すなわ ち正則キーワードに対応しない音声から得られた音響特徴量、 音素列、 文字列、 メタ特徴量を与えることで、 誤って非キーヮードに対して高い尤度を返すような モデルとなることを防ぐことができる。  If the keyword extraction model 1 0 2 is to be learned using not only positive examples but also negative examples, the keyword extraction model learning means 1 1 0 in step S 2 1 0 It is also possible to perform graph learning for unsupported speech parts. For example, in the case of a keyword network model in which a classifier such as SVM is prepared for each keyword, a negative example, that is, an acoustic feature obtained from speech that does not correspond to a regular keyword By providing phoneme strings, character strings, and meta features, it is possible to prevent a model that erroneously returns a high likelihood for non-keywords.
また、 正則キーワードに対応する発話や正則キーワード自体も、 負例としてス テツプ S 2 1 0で利用できることがある。 例えば、 キーワード Α用の学習データ として入力された正則キ一ヮ一ドとその発話表現および音声データは、 別のキー ワード Bに対する識別器の負例として利用できる。  Also, utterances corresponding to regular keywords and regular keywords themselves may be used in step S 2 1 0 as a negative example. For example, a regular key word entered as learning data for the keyword と, its utterance expression, and voice data can be used as a negative example of a discriminator for another keyword B.
最後に、 ステップ S 2 1 1で、 キーワード抽出モデル学習手段 1 1 0は、 ステ ップ S 2 0 7、 S 2 0 8および S 2 0 9におけるモデルの拡張に応じて、 モデル の既存部位に対する再計算などが必要である場合、 再計算を行う。 例えば、 単語Finally, in step S 2 1 1, the keyword extraction model learning means 1 1 0 determines the model depending on the model expansion in steps S 2 0 7, S 2 0 8 and S 2 0 9. If it is necessary to recalculate the existing part, recalculate. For example, the word
N-gram に基づくキーワード抽出モデル 1 0 2では、 モデル拡張 (すなわち、 未 知の N単語組の頻度が増す) の後にバックオフ係数などの再計算が必要になる。 その後、 キーワード抽出システム 1 0 0は、 キーワード抽出モデル学習手段 1 1 0によって学習されたキーヮード抽出モデル 1 0 2を用いて、 キーヮードの抽 出処理を実行することになる。 上記の処理が実行され、 連携先システム 1 2 0へ の入力や、その発話表現も考慮してキーヮード抽出モデルが学習されるに従って、 キーヮード抽出の精度を向上させることができる。 The N-gram-based keyword extraction model 102 requires recalculation of backoff coefficients after model expansion (that is, the frequency of unknown N word sets increases). After that, the keyword extraction system 100 uses the keyword extraction model 10 2 learned by the keyword extraction model learning means 110 to execute the key word extraction process. As the above process is executed and the key extraction model is learned in consideration of the input to the cooperation destination system 120 and its utterance expression, the accuracy of the key extraction can be improved.
実施の形態 2 Embodiment 2
次に、 本発明の第 2の実施の形態を図面を参照して説明する。 図 4は、 第 2の 実施の形態の構成例を示すプロック図である。 図 4に示す第 2の実施の形態は、 音声からキーヮードを抽出するキーヮード抽出システム 2 0 0と、 キーヮード抽 出モデル学習手段 2 1 0と、 抽出されたキーワードを入力として所定の動作を行 う連携先システム 2 2 0と備える。  Next, a second embodiment of the present invention will be described with reference to the drawings. FIG. 4 is a block diagram showing a configuration example of the second embodiment. In the second embodiment shown in FIG. 4, a key word extraction system 2 0 0 for extracting a key word from speech, a key word extraction model learning means 2 1 0, and a predetermined operation is performed with the extracted keyword as an input. It is provided with the cooperation destination system 2 2 0.
キーヮード抽出システム 2 0 0は、 キーヮードに対応する発話区間を切り出す キーワード区間抽出手段 2 0 1と、 切り出されたキーワード発話区間に対してい ずれのキーワードに対する発話であるかを判別するキーワード認識手段 2 0 2と、 キーワード抽出モデル学習手段 2 1 0によって学習されたキーワード区間抽出モ デル 2 0 3と、 同じくキーヮード抽出モデル学習手段 2 1 0によって学習された キーヮード認識モデル 2 0 4とを含む。  The keyword extraction system 2 0 0 includes a keyword interval extraction means 2 0 1 for extracting an utterance interval corresponding to the keyword, and a keyword recognition means 2 0 for discriminating which keyword is uttered with respect to the extracted keyword utterance interval. 2, a keyword section extraction model 2 0 3 learned by the keyword extraction model learning means 2 10, and a key word recognition model 2 0 4 also learned by the keyword extraction model learning means 2 1 0.
次に、 図面を参照して第 2の実施の形態の動作について説明する。 図 5は、 第 2の実施の形態におけるキーワード抽出システムの動作の例を示すフローチヤ一 トである。 キーワード区間抽出手段 2 0 1は、 入力された音声データに対してキ —ワード区間抽出モデル 2 0 3を適用する。 そして、 適用したキーワード区間抽 出モデル 2 0 3が、 音声データのある区間に対して所定の閾値以上の尤度を返し たならば、 キーヮード区間抽出手段 2 0 1は、 その音声の区間をキーヮード区間 として特定する (ステップ S 3 0 1 )。  Next, the operation of the second embodiment will be described with reference to the drawings. FIG. 5 is a flowchart showing an example of the operation of the keyword extraction system in the second embodiment. The keyword interval extraction means 2 0 1 applies the keyword interval extraction model 2 0 3 to the input speech data. If the applied keyword segment extraction model 20 3 returns a likelihood equal to or greater than a predetermined threshold for a certain segment of voice data, the keyword segment extraction means 2 0 1 uses the keyword segment as a keyword. It is specified as a section (step S 3 0 1).
さらに、 キーワード認識手段 2 0 2は、 特定されたキーワード区間に対して、 キーヮード認識モデル 2 0 4を用いたキーヮード認識処理を実行し、 キーヮ一ド 認識モデルがその音声区間に对して最尤として返却したキーヮードを出力するFurther, the keyword recognizing unit 202 performs a key recognition process using the key recognition model 20 04 for the identified keyword section, and Outputs the keyboard returned by the recognition model as the maximum likelihood for the speech segment.
(ステップ S 3 0 2 )。 (Step S 3 0 2).
図 6は、 第 2の実施の形態におけるキーワード抽出モデル学習手段 2 1 0の動 作の例を示すフローチャートである。 キーワード抽出モデル学習手段 2 1 0は、 連携先システム 2 2 0への入力と、 音声データと、 これらを対応付ける情報とを 入力する (ステップ S 4 0 1 )。  FIG. 6 is a flowchart showing an example of the operation of the keyword extraction model learning means 210 in the second embodiment. The keyword extraction model learning means 2 1 0 inputs the input to the cooperation destination system 2 2 0, the voice data, and information that associates them (step S 4 0 1).
キーワード抽出モデル学習手段 2 1 0は、 連携先システム 2 2 0への入力をキ ーヮードとみなし、 キーヮードまたはその発話表現が音声のある区間に出現した か否かを推定するキーヮード区間抽出モデル 2 0 3を学習する (ステップ S 4 0 2 )。 すなわち、 キーワード区間抽出モデル 2 0 3は、 音声データがキーワードを 含むか否かを示す尤度を返すモデルである。  The keyword extraction model learning means 2 1 0 considers the input to the linked system 2 2 0 as a keyword, and estimates whether or not the keyword or its utterance expression appears in a certain speech interval 2 0 3 is learned (step S 4 0 2). In other words, the keyword interval extraction model 203 is a model that returns a likelihood indicating whether or not speech data includes a keyword.
また同時に、 同じ入力を用いて、 あるキーワードに対応する音声の一区間に対 して、 その音声区間に何れかのキーヮードまたはその発話表現が現れたか認識す るキーワード認識モデル 2 0 4をあわせて学習する (ステップ S 4 0 3 )。 すなわ ち、 キーワード認識モデルは、 音声データがどのキーワードを含むかを示す尤度 を返すモデルである。 At the same time, using the same input, and pair a section of speech corresponding to a keyword, and the combined keyword recognition model 2 0 4 you recognize whether appeared either Kiwado or spoken expressions in the speech segment Learn (Step S 4 0 3). In other words, the keyword recognition model is a model that returns a likelihood indicating which keywords are included in the speech data.
キ一ワード抽出モデル学習手段 2 1 0の 2つのモデルの学習手順は、 第 1の実 施の形態のキーワード抽出モデル学習手段 1 1 0の学習手順とほぼ同じである。 キーヮード区間抽出手段 2 0 1は、 キーヮード区間抽出モデル 2 0 3が返却す る情報に基づいて、 いくつか用意されたキーヮード認識モデル 2 0 4の中から最 適なモデルを選択するよう動作しても良い。  The learning procedure of the two models of the key word extraction model learning means 2 10 is almost the same as the learning procedure of the keyword extraction model learning means 110 of the first embodiment. The key segment extraction means 2 0 1 operates to select an optimum model from several prepared key recognition models 2 0 4 based on information returned by the key segment extraction model 2 0 3. Also good.
すなわち、 キーワード区間抽出モデル 2 0 3が、 いくつかのキーワードを含む キーヮードグループに対する尤度を返すよう学習されている場合、 キーヮード抽 出モデル学習手段 2 1 0は、 キ一ヮ一ド認識モデル 2 0 4を、 そのキーヮードグ ループごとに学習しておく。 こうすることで各モデルをより高精度に学習させる ことが可能となり、 キーワード抽出精度が向上する。  That is, when the keyword interval extraction model 2 0 3 has been learned to return the likelihood for a keyword group including several keywords, the keyword extraction model learning means 2 1 0 performs keystroke recognition. Model 2 0 4 is learned for each key group. In this way, each model can be trained with higher accuracy, and the keyword extraction accuracy is improved.
第 2の実施の形態では、 キーワード抽出に必要な 2つの識別動作、 すなわち、 ある音声区間がキーヮ一ドであるかどうかを識別する動作と、 ある音声区間がど のキーワードであるかを識別する動作とを、 別個にモデル化するため、 より精度 の高いモデルを構築できる。 特に、 S VM等の識別モデルを用いる場合は、 相対 的に負例の個数が増えるので、 第 1の実施の形態におけるモデルよりも精度の高 い学習を行うことができる。 In the second embodiment, two identification operations necessary for keyword extraction, that is, an operation for identifying whether or not a certain voice segment is a key phrase, and which keyword is a certain voice segment are identified. More accurate because the behavior is modeled separately Can build a high model. In particular, when an identification model such as SVM is used, since the number of negative examples is relatively increased, learning with higher accuracy than the model in the first embodiment can be performed.
また、 第 2の実施の形態では、 類似するキーワードに対するより高い汎化能力 を持った学習が可能である。  In the second embodiment, learning with higher generalization ability for similar keywords is possible.
キーワードが類似する場合、 その発話表現や、 その音声に対する認識結果は互 いに似通い、 オーバーラップすることもある。 例えば、 キーワード Aの変形であ るキーワード A 1と、 キーワード Bの変形であるキーワード B 1と力 まったく 同じ形になることがある。 第 1の実施の形態では、 そのようなオーバーラップは モデルの学習精度を低下させることがある。 一方、 第 2の実施の形態では、 少な くともキーワード区間抽出モデル 2 0 3の学習に関しては、 オーバーラップは問 題にならない。 なぜなら、 キーワード区間抽出手段 2 0 1にとつて、 キーワード A 1 (=キーワード B 1 ) にマッチする音声区間に対して、 「Aであるか」 「Bで あるか」 は問題にならず、 「Aか Bの何れかがこの区間にあらわれた」 ことだけを 精度よく推定できれば十分だからである。  If the keywords are similar, the utterance expression and the recognition result for the speech are similar to each other and may overlap. For example, the keyword A 1 which is a modification of the keyword A and the keyword B 1 which is a modification of the keyword B may be in exactly the same form. In the first embodiment, such overlap may reduce the learning accuracy of the model. On the other hand, in the second embodiment, at least the learning of the keyword interval extraction model 203 is not a problem. Because, for keyword segment extraction means 2 0 1, for speech segments that match keyword A 1 (= keyword B 1), whether “A” or “B” is not a problem. This is because it is sufficient to accurately estimate that either “A” or “B” appeared in this section.
また、 キーワード認識モデル 2 0 4についても、 第 2の実施の形態の方がより 精度の高いモデルを学習できる可能性がある。なぜなら、第 1の実施の形態では、 キーヮ一ド抽出モデル 1 0 2はキーヮードの前後にあるフィラーについても棄却 できるように学習する必要があった。 一方、 第 2の実施の形態におけるキーヮー ド認識モデル 2 0 4では、 キーヮ一ド前後のフイラ一を考慮する必要がない。 また、 キーヮードグループごとに別のキーヮ一ド認識モデル 2 0 4を用いる場 合に、 より精度の高いモデルを学習可能であることはいうまでもない。  Also for the keyword recognition model 204, there is a possibility that the second embodiment can learn a model with higher accuracy. This is because, in the first embodiment, it is necessary to learn that the keystroke extraction model 10 2 can reject the fillers before and after the keystroke. On the other hand, in the keyword recognition model 20 4 in the second embodiment, it is not necessary to consider the filters before and after the keypad. Needless to say, it is possible to learn a more accurate model when using a different key key recognition model for each key group.
予め複数のキーヮードの一部がグループを構成することが分かっている場合は、 初期モデルを構築する時点でグループ化しておくことができる。 そうでない場合 は、 互いにオーバーラップする複数のキーヮードを統合するようにすれば良い。 例えば、 あるキーワードに対する発話表現が与えられたときに、 そのキーワード 以外のあるキーヮード群に対して高い尤度が得られたならば、 その高い尤度が得 られたキ一ヮ一ド群に、その発話表現のキーヮ一ドを統合するようにすれば良い。 実施例 次に、 第 2の実施の形態の実施例について説明する。 図 7は、 本実施例による キーヮード抽出システムの構成例を示すブロック図である。 図 7に示すように、 キーヮード抽出システム 3 0 0が、 商品情報検索システム 3 2 0のフロントェン ドとして動作する場合について説明する。 If it is known in advance that some of the keywords form a group, they can be grouped when the initial model is built. If this is not the case, you can integrate multiple keywords that overlap each other. For example, if an utterance expression for a certain keyword is given and a high likelihood is obtained for a certain key group other than that keyword, then the key group for which the high likelihood is obtained is What is necessary is just to integrate the key word of the speech expression. Example Next, an example of the second embodiment will be described. FIG. 7 is a block diagram showing a configuration example of the keyword extraction system according to the present embodiment. As shown in FIG. 7, the case where the keyword extraction system 300 operates as a frontend of the product information search system 320 will be described.
商品情報検索システム 3 2 0は、 1つ又は複数の検索ワードを与えられること で、 その検索ワードに関する情報を含む商品の情報を提示する。 例えば、 商品の 正式名称や略称、 カタログ上での商品番号、 商品の分類 (家具、 椅子、 テレビ、 健康器具、 等)、 商品の特徴を現す言葉 (白い、 パイプ製、 大画面、 肩こり) など を入力することで、 商品情報を検索できる。 これらの検索ワードは、 キーボード 等の入力装置を用いて入力することもできる。  The merchandise information search system 3 2 0 is provided with one or a plurality of search words, and presents product information including information on the search words. For example, formal names and abbreviations of products, product numbers in catalogs, product classifications (furniture, chairs, TVs, health equipment, etc.), words that describe product characteristics (white, pipes, large screen, stiff shoulders), etc. You can search for product information by entering. These search words can also be input using an input device such as a keyboard.
商品情報検索システム 3 2 0の利用者は、 電話等で顧客と応対しながら、 必要 な商品情報を検索するものとする。  The user of the product information search system 3 2 0 shall search for necessary product information while responding to the customer by telephone or the like.
キーワード抽出システム 3 0 0は、 キーワード区間切り出し部 3 0 1と、 キー ワード認識部 3 0 2と、 N個のキーワードクラスタ抽出モデル 3 0 3と、 N個の キーワードクラスタ認識モデル 3 0 4とを含む。  The keyword extraction system 3 0 0 includes a keyword segment extraction unit 3 0 1, a keyword recognition unit 3 0 2, N keyword cluster extraction models 3 0 3, and N keyword cluster recognition models 3 0 4. Including.
キーヮードクラスタ抽出モデル 3 0 3は、 S VMや C R F等の識別モデルを複 数並列に配置したものである。 各キーワードクラスタ抽出モデル 3 0 3は、 ある クラスタに属す一連のキーヮ一ドぉよびその発話表現をモデル化したものである。 各キーワードクラスタ抽出モデル 3 0 3は、ある音声区間の音響特徴量、音素列、 上位 n位までの認識候補の単語列、 各単語の品詞情報等の素性を元に、 正例 (そ のクラスタに属すキ一ワードおよび発話表現) と負例 (そのクラスタに属さない キーワードおよび発話表現、 さらに非キーワード、 ノイズ等) をもっとも精度よ く識別できるよう学習される。  The keyword cluster extraction model 303 is a model in which a plurality of identification models such as SVM and CRF are arranged in parallel. Each keyword cluster extraction model 303 models a series of key words belonging to a certain cluster and their utterance expressions. Each keyword cluster extraction model 30 3 is based on features such as acoustic features of a certain speech segment, phoneme string, word sequence of recognition candidates up to the top n, and part-of-speech information of each word. Key words and utterance expressions belonging to) and negative examples (keywords and utterance expressions that do not belong to the cluster, and non-keywords, noise, etc.) can be learned with the highest accuracy.
キーワード区間切り出し部 3 0 1は、 入力音声からキーワードクラスタ抽出モ デル 3 0 3が要求する各種素性を算出する。 算出した各種素性をキーヮードクラ スタ抽出モデル 3 0 3に入力することで、 ある音声区間が、 キーワードクラスタ 抽出モデル 3 0 3によって表されるキーワードの何れかであるかを示す尤度が求 められる。 複数のキーワードクラスタ抽出モデル 3 0 3のうち、 もっとも高い尤 度を返したキ一ヮ一ドクラスタ抽出モデル 3 0 3が示すクラスタ(最尤クラスタ) について、 尤度が所定の閾値を越えていれば、 キーワード区間切り出し部 3 0 1 は、 その音声区間ではそのクラスタに属すキーワ^"ドのいずれかが発話されたと 判断する。 The keyword segment extraction unit 301 calculates various features required by the keyword cluster extraction model 30 3 from the input speech. By inputting the various features calculated into the keyword cluster extraction model 30 3, the likelihood indicating whether a speech segment is one of the keywords represented by the keyword cluster extraction model 30 3 can be obtained. The cluster indicated by the key cluster extraction model 3 0 3 that returned the highest likelihood among the multiple keyword cluster extraction models 3 0 3 (maximum likelihood cluster) If the likelihood exceeds a predetermined threshold value, the keyword segment extraction unit 3 0 1 determines that one of the keywords belonging to the cluster has been uttered in the speech segment.
キーヮード認識部 3 0 2は、 キーヮード区間切り出し部 3 0 1が何れかのキー ヮードクラスタに対応する音声区間を検出した際に起動される。 キーヮ一ド認識 部 3 0 2は、 切り出された音声区間に対する最尤クラスタのキーヮ一ドクラスタ 認識モデル 3 0 4を用いて、 音声区間について音声認識処理を行う。 その結果、 もっとも高い尤度を返したキーヮードについて、 その尤度が所定の閾値を超えて いれば、 キーワード認識部 3 0 2は、 その音声区間でそのキーワード (またはそ の発話表現) が発話されたと判断する。  The key word recognition unit 30 2 is activated when the key word segment cutout unit 3 0 1 detects a voice segment corresponding to one of the key word clusters. The key key recognition unit 3 0 2 performs voice recognition processing for the voice segment using the key likelihood cluster recognition model 3 0 4 of the maximum likelihood cluster for the extracted voice segment. As a result, for a keyword that returns the highest likelihood, if the likelihood exceeds a predetermined threshold, the keyword recognizer 3 0 2 utters the keyword (or its utterance expression) in the speech segment. Judge that
キーヮードクラスタ認識モデル 3 0 4は、 あるキーヮードクラスタに対応する ある音声区間について、 そのキーヮードクラスタに包含されるいずれのキーヮー ドまたはその発話表現であるかをそれぞれへの尤度として返す。 実装としては、 非特許文献 1に記載されている HMMキーワードネットワークや、 重み付き木構 造辞書、 文字 N-gramなどが利用できる。 ここでは、 音節 HMMによるキーヮー ドネットワークを用いる場合について説明する。  The keyword cluster recognition model 3 0 4 is the likelihood of which one of the key words included in the key cluster or its utterance representation for a speech segment corresponding to a key cluster. Return as. For implementation, the HMM keyword network described in Non-Patent Document 1, a weighted tree structure dictionary, character N-gram, etc. can be used. Here, the case of using a keyboard network based on the syllable HMM is described.
次に、 キーワードモデル学習部 3 1 0の動作について説明する。 まず、 キーヮ ードモデル学習部 3 1 0に、 学習データ対が入力される。 学習データ対は、 商品 情報検索システム 3 2 0に過去に入力された検索クエリ (検索ワード) と、 検索 クエリが発行された際の利用者の発話音声と、 発話音声中で、 検索クエリに対応 すると思われる発声が行われた相对時刻情報とを含む。  Next, the operation of the keyword model learning unit 3 10 will be described. First, a learning data pair is input to the key model learning unit 3 10. The learning data pair corresponds to the search query (search word) entered in the product information search system 3 2 0 in the past, the user's utterance voice when the search query is issued, and the search voice in the utterance voice. Then, the corresponding time information at which the utterance that is supposed to be performed is included.
例えば、 利用者が 「お問い合わせ商品の商品番号を頂けますか。 はい。 Aの… 3 0—D ?あ、 Aの 3 0 Cですね」 と発話した直後に検索クエリ 「A— 3 0 C J をキ一タイプし、 商品情報検索システム 3 2 0に問い合わせを発行したとする。 このとき、 検索クエリ 「A— 3 0 C」 と、 この発話全体の音声と、 「Aの 3 0 C J と発話した相対時刻情報とを含む学習データ対が、 キーワードモデル学習部 3 1 0への入力となる。 このとき、 すでにキーワードモデルが十分に学習されていれ ば、 検索クエリ 「A— 3 0 C j から考えうる発話表現のいずれかが発話音声の中 に存在するかチェックし、 見つかれば (このケースでは 「Aの 3 0 C」 が見つか る答である力 、 この発話区間の時刻情報と、 発話全体と、 検索クエリ 「A— 3 0 C」 を学習データ対として自動的に見つけ出せる。 キ^ワードモデルの学習が不 十分な場合は、 利用者が発話時に手動で関連付けをする (例えば、 発話内容が順 次音声認識されて画面に出ている場合は、その該当音声部位を選択するなど)か、 あるいは事後に利用者または第三者が明示的に関連付けすることによって、 学習 データ対を準備する。 For example, the search query “A—3 0 CJ immediately after the user utters“ Can you give me the item number of the product you inquired? Yes. A… 3 0—D? , And issue a query to the product information search system 3 2 0. At this time, the search query “A—3 0 C”, the voice of this entire utterance, and “A 3 0 CJ and utterance” The pair of learning data including the relative time information is input to the keyword model learning unit 3 1 0. At this time, if the keyword model has already been sufficiently learned, the search query “A—3 0 C j Check if any of the possible utterance expressions are present in the speech and if it is found (in this case “30 C of A” is found) It is possible to automatically find the time information of this utterance section, the entire utterance, and the search query “A—30 C” as a learning data pair. When learning the word model is insufficient, the user manually associates when speaking (for example, if the utterance content is recognized on the screen and is displayed on the screen, select the corresponding speech part) Etc.), or the user or a third party explicitly associates the training data after the fact.
キーワードモデル学習部 3 1 0は、 まず、 新たな学習データが、 既知のいずれ かのキーヮードクラスタに属すかどうか判断する。 学習データとして与えられた 検索クエリが既知の何れかのキ一ワードクラスタに属していれば、 以降、 キーヮ ードモデル学習部 3 1 0は、 そのクラスタに対する学習を行う。 いずれのクラス タにも属していない場合は、 キーワードモデル学習部 3 1 0は、 新たなクラスタ を作成する。  First, the keyword model learning unit 3 10 determines whether the new learning data belongs to any one of the known keyword clusters. If the search query given as learning data belongs to any known keyword cluster, thereafter, the keyword model learning unit 310 performs learning for the cluster. If it does not belong to any cluster, the keyword model learning unit 3 10 creates a new cluster.
次に、 キーワードモデル学習部 3 1 0は、 キーワードクラスタ抽出モデル 3 0 3に対する学習を行う。 キーワードモデル学習部 3 1 0は、 選択した (あるいは 作成した) クラスタに対応するキ一ヮ一ドクラスタ抽出モデル 3 0 3に対して、 発話音声のうち検索クェリに対応すると思われる発声が行われた時刻の音声につ いて、 必要な素性情報を抽出する。 これを正例として、 このキーワードクラスタ 抽出モデル用の学習データに追加する。 さらに、 その発話以外の時刻の音声につ いても同様に必要な素性情報を抽出し、これを負例として学習データに追加する。 キーワードモデル学習部 3 1 0は、 追カ卩された学習データを用いてキーワードク ラスタ抽出モデル 3 0 3を学習する。 学習アルゴリズムは、 採用したモデル (S VM、 C R F等) に応じたものを適宜利用する。  Next, the keyword model learning unit 3 10 performs learning for the keyword cluster extraction model 3 0 3. The keyword model learning unit 3 1 0 uttered speech that seems to correspond to the search query from the uttered speech to the key cluster extraction model 3 0 3 corresponding to the selected (or created) cluster. Necessary feature information is extracted from the voice of the time. As a positive example, this is added to the learning data for this keyword cluster extraction model. Furthermore, necessary feature information is extracted in the same way for speech at times other than the utterance, and this is added to the learning data as a negative example. The keyword model learning unit 3 10 learns the keyword cluster extraction model 3 0 3 using the added learning data. The learning algorithm is appropriately used according to the model used (S VM, C R F, etc.).
次に、 キーワードモデル学習部 3 1 0は、 キーワードクラスタ認識モデル 3 0 4に対する学習を行う。 キーワードモデル学習部 3 1 0は、 選択した (あるいは 作成した) クラスタに対応するキーヮードクラスタ認識モデル 3 0 4に対して、 発話音声のうち検索クエリに対応すると思われる発声が行われた時刻の音声につ いて、 必要な素性情報を抽出する。 キーワードモデル学習部 3 1 0は、 音節 HM Mを用いる場合は、 音声から抽出した音響特徴量が所与の音響モデルに対しても つとも高い尤度を示すような音節列を求める。 キーワードモデル学習部 3 1 0は、 抽出した素性情報を学習データとして、 キ 一ワードに対する HMMを生成する。さらに、キ一ヮ" ~ドモデル学習部 3 1 0は、 検索クエリ文字列を音節列に変換し、 こちらの HMMも合わせて作成する。 こう して生成した二つの HMMは、 どちらも検索クエリ (キーワード) に対する尤度 を求めるのに用いられる。 Next, the keyword model learning unit 3 10 performs learning for the keyword cluster recognition model 3 0 4. The keyword model learning unit 3 1 0 performs the utterance that is considered to correspond to the search query among the utterances for the keyword cluster recognition model 3 0 4 corresponding to the selected (or created) cluster. Necessary feature information is extracted from the voice. When the syllable HMM is used, the keyword model learning unit 3 10 obtains a syllable string in which the acoustic feature extracted from the speech shows a high likelihood for a given acoustic model. The keyword model learning unit 3 10 generates an HMM for a key word using the extracted feature information as learning data. In addition, the key model learning unit 3 1 0 converts the search query string into a syllable string, and also creates this HMM. Both of the two HMMs generated in this way are the search query ( This is used to calculate the likelihood for (keyword).
なお、 キーヮードクラスタ認識モデル 3 0 4として S VM等の識別モデルを利 用することも、 キーワードクラスタ抽出モデル 3 0 3として N-gramやキーヮー ドネットワークを利用することも、 どちらも当然可能である。  Of course, it is possible to use an identification model such as SVM as the keyword cluster recognition model 304, or to use an N-gram or keyword network as the keyword cluster extraction model 303. It is.
キーワードモデル学習部 3 1 0は、さらに、クラスタの統合が必要か判断する。 これはキーヮードクラスタ抽出モデル 3 0 3について、 重複がどれだけ見られる かで判断する。 例えば、 キーワードモデル学習部 3 1 0は、 各クラスタのキーヮ 一ドクラスタ抽出モデル 3 0 3の学習データの正例について、 他のクラスタの正 例と一致するものの割合を数える。 これが所定の閾値以上であれば、 これらのク ラスタは統合が必要と判断する。  The keyword model learning unit 3 10 further determines whether cluster integration is necessary. This is determined by how much overlap is seen in the keyword cluster extraction model. For example, the keyword model learning unit 3 10 counts the proportion of the positive examples of the learning data of the key cluster extraction model 3 0 3 of each cluster that matches the positive examples of other clusters. If this is above a predetermined threshold, it is determined that these clusters need to be integrated.
産業上の利用可能性  Industrial applicability
本発明によれば、 音声入力 I Z Fを備えた情報検索装置や、 音声から必要な情 報を抽出して所定のフォームに埋めるような情報記録装置、 所定の內容に関する 音声を検索するメディァ検索装置、 またボイスコマンドによつて動作する情報家 電装置やソフトウェア、 といった用途に適用できる。  According to the present invention, an information search device equipped with a voice input IZF, an information recording device that extracts necessary information from voice and fills it in a predetermined form, a media search device that searches for voice related to a predetermined content, It can also be applied to applications such as information home appliances and software that operate by voice commands.
尚、 この出願は 2 0 0 7年 6月 6日に出願された日本出願特願第 2 0 0 7 - 1 5 0 0 8 2号を基礎とする優先権を主張し、その開示のすべてをここに取り込む。  This application claims priority based on Japanese Patent Application No. 2 0 0 7-1 5 0 0 8 2 filed on June 6, 2000, and all the disclosures thereof Capture here.

Claims

1 . 音声からキーヮードを抽出するキーヮード抽出モデルを学習するキーヮ一 ド抽出モデル学習システムであって、 1. A key word extraction model learning system for learning a key extraction model for extracting key words from speech,
連携システムへの入力と、 前記入力に対応する音声とを用いて学習を行うキー ヮード抽出モデル学習手段を備えた  It has a keyboard extraction model learning means for performing learning using an input to the cooperation system and a voice corresponding to the input.
ことを特徵とするキーヮード抽請出モデル学習システム。 This is a keyed drawing model learning system that specializes in that.
2 . 連携システムへの入力は少なくともテキスト情報を含む請求項 1記載のキ の 2. The key of claim 1, wherein the input to the linkage system includes at least text information.
ーヮ一ド抽出モデル学習システム。 囲 -A model extraction model learning system. Surrounding
3 . 連携システムへの入力に対応する音声は、 前記連携システムへの入力に対 応する一部と、 対応しない一部のいずれをも含む請求項 1または請求項 2記載の キーヮード抽出モデル学習システム。  3. The key word extraction model learning system according to claim 1 or 2, wherein the speech corresponding to the input to the cooperative system includes both a part corresponding to the input to the cooperative system and a part not corresponding to the input. .
4 . キーワード抽出モデル学習手段は、 連携システムへの入力に対して高い尤 度を返すようにキーヮード抽出モデルを学習する請求項 1から請求項 3のうちの レ、ずれか 1項に記載のキーヮ一ド抽出モデル学習システム。 4. The keyword extraction model learning means learns the keyword extraction model so as to return a high likelihood with respect to the input to the cooperation system. A model extraction model learning system.
5 . キーワード抽出モデル学習手段は、 連携システムへの入力に対応する音声 または対応する音声の一部に対して高い尤度を返すようにキーヮ一ド抽出モデル を学習する請求項 1から請求項 4のうちのいずれか 1項に記載のキーヮード抽出 モデル学習システム。 5. The keyword extraction model learning means learns the key method extraction model so as to return a high likelihood to the voice corresponding to the input to the cooperative system or a part of the corresponding voice. The key extraction model learning system according to any one of the above.
6 . キーワード抽出モデル学習手段は、 連携システムへの入力に対応しない音 声または対応しない音声の一部に対して低い尤度を返すようにキーヮード抽出モ デルを学習する請求項 1から請求項 5のうちのいずれか 1項に記載のキーヮード 抽出モデル学習システム。 6. The keyword extraction model learning means learns the keyword extraction model so as to return a low likelihood to a voice that does not correspond to an input to the cooperative system or a part of the speech that does not correspond. The key extraction model learning system according to any one of the above.
7 . キーワード抽出モデル学習手段は、 連携システムへのある入力に対応する 音声を、 該連携システムへの入力と類似した別の入力に関するモデル学習の学習 データとして用いる請求項 1から請求項 6のうちのいずれか 1項に記載のキーヮ 一ド抽出モデル学習システム。 7. The keyword extraction model learning means uses speech corresponding to an input to the cooperative system as learning data for model learning related to another input similar to the input to the cooperative system. The key map extraction model learning system according to any one of the above.
8 . キーワード抽出モデル学習手段は、 連携システムへのある入力に対応する 音声を、 該連携システムへの入力と類似しない別の入力に関するモデル学習の負 例の学習データとして用いる請求項 1から請求項 7のうちのいずれか 1項に記載 のキーヮ—ド抽出モデル学習システム。 8. The keyword extraction model learning means uses speech corresponding to an input to the cooperative system as learning data of a negative example of model learning related to another input that is not similar to the input to the cooperative system. 8. The key extraction model learning system according to any one of 7 above.
9 . キーワード抽出モデル学習手段は、 予め与えられた制約に基づいて連携シ ステムへの入力を 1つ以上のクラスタに分類し、 各クラスタに関する学習をまと めて行う請求項 1から請求項 8のうちのいずれか 1項に記載のキーヮード抽出モ デル学習システム。 9. The keyword extraction model learning means classifies the input to the cooperation system into one or more clusters based on a predetermined constraint, and performs learning related to each cluster collectively. The keyword extraction model learning system according to any one of the above.
1 0 . キーワード抽出モデル学習手段が学習するキーワード抽出モデルは、 あ る音声の一部がいずれかのキーヮードの発話であるかの尤度を返すキーヮード区 間モデルと、 ある音声の一部が各キーヮードの発話であるかの尤度を返すキーヮ 一ド認識モデルと、 の 2種類のモデルからなり、 1 0. The keyword extraction model learned by the keyword extraction model learning method includes a keyword interval model that returns the likelihood that a part of a certain speech is an utterance of one of the keywords, and a part of a certain speech. It consists of two models: a key recognition model that returns the likelihood of a key word utterance, and
前記キーヮード抽出モデル学習手段は、 前記 2種類のモデルを学習する 請求項 1から請求項 9のうちのいずれか 1項に記載のキーヮード抽出モデル学 習システム。  10. The key word extraction model learning system according to claim 1, wherein the key word extraction model learning unit learns the two types of models.
1 1 . 連携システムへの入力と、 1 1. Input to the linkage system and
前記入力に対応する可能性の高い音声の一区間を見つけ出し、 この区間の音声 と、  Find a section of speech that is likely to correspond to the input,
を用いて学習を行うキーワード抽出モデル学習手段を備えた  Equipped with keyword extraction model learning means to learn using
請求項 1から請求項 1 0のうちのいずれか 1項に記載のキーヮード抽出モデル 学習システム。 The key word extraction model learning system according to any one of claims 1 to 10.
1 2 . キーワード抽出モデル学習手段は、 入力に対応する音声または前記入力 に対応する音声の書き起こしを用いて学習を行う 1 2. The keyword extraction model learning means learns using speech corresponding to input or transcription of speech corresponding to the input.
請求項 1から請求項 1 1のうちのいずれか 1項に記載のキ一ヮ一ド抽出モデル 学習システム。  The key extraction model learning system according to any one of claims 1 to 11.
1 3 . 請求項 1から請求項 1 2のうちのいずれか 1項に記載のキーヮード抽出 モデル学習手段によって学習したキーワード抽出モデルを用いることを特徵とす るキーヮード抽出システム。 1 3. A key word extraction system characterized by using a keyword extraction model learned by the key word extraction model learning means according to claim 1.
1 4 . 請求項 1 3に記載のキーヮ一ド抽出システムを用いることを特徴とする 情報入力システム。 14. An information input system using the key pad extraction system according to claim 13.
1 5 . 請求項 1 3に記載のキーワード抽出システムを用いることを特徴とする 情報検索システム。 15. An information search system using the keyword extraction system according to claim 13.
1 6 . 音声からキーワードを抽出するキーワード抽出モデルを学習するキーヮ 一ド抽出モデル学習方法であって、 1 6. A key extraction model learning method for learning a keyword extraction model for extracting keywords from speech,
連携システムへの入力と、 前記入力に対応する音声とを用いて学習を行うキー ヮード抽出モデル学習ステップを含むことを特徵とするキーヮード抽出モデル学 習方法。  A keyword extraction model learning method characterized by including a keyword extraction model learning step of performing learning using an input to a cooperative system and a voice corresponding to the input.
1 7 . 連携システムへの入力は少なくともテキスト情報を含む請求項 1 6記載 のキーヮード抽出モデル学習方法。 17. The method for learning a keyword extraction model according to claim 16, wherein the input to the linkage system includes at least text information.
1 8 . 連携システムへの入力に対応する音声は、 前記連携システムへの入力に 対応する一部と、 対応しない一部のいずれをも含む請求項 1 6または請求項 1 7 記載のキーヮード抽出モデル学習方法。 1 8. The key extraction model according to claim 16, wherein the voice corresponding to the input to the linkage system includes both a part corresponding to the input to the linkage system and a part not corresponding to the input. Learning method.
1 9 . キ一ワード抽出モデル学習ステップで、 連携システムへの入力に対して 高い尤度を返すようにキーヮード抽出モデルを学習する請求項 1 6から請求項 1 8のうちのいずれか 1項に記載のキーヮード抽出モデル学習方法。 1 9. In the key word extraction model learning step, the key word extraction model is learned so as to return a high likelihood to the input to the cooperative system. The key word extraction model learning method described.
2 0 . キーワード抽出モデル学習ステップで、 連携システムへの入力に対応す る音声または对応する音声の一部に対して高い尤度を返すようにキーヮード抽出 モデルを学習する請求項 1 6から請求項 1 9のうちのいずれか 1項に記載のキー ワード抽出モデル学習方法。 Claiming a keyword extraction model so as to return a high likelihood to a voice corresponding to an input to the cooperative system or a part of the corresponding voice in the keyword extraction model learning step. Item 19. The keyword extraction model learning method according to any one of Items 9 to 9.
2 1 . キーワード抽出モデル学習ステップで、 連携システムへの入力に対応し ない音声または対応しない音声の一部に対して低い尤度を返すようにキーヮード 抽出モデルを学習する請求項 1 6から請求項 2 0のうちのいずれか 1項に記載の キ一ヮ一ド抽出モデル学習方法。 2 1. In the keyword extraction model learning step, the key word extraction model is trained so as to return a low likelihood to a speech that does not correspond to an input to the cooperative system or a part of the speech that does not correspond. 20. The key extraction model learning method according to any one of 2 0.
2 2 . キーワード抽出モデル学習ステップで、 連携システムへのある入力に対 応する音声を、 該連携システムへの入力と類似した別の入力に関するモデル学習 の学習データとして用いる請求項 1 6から請求項 2 1のうちのいずれか 1項に記 載のキーヮード抽出モデル学習方法。 2 2. In the keyword extraction model learning step, the voice corresponding to an input to the cooperative system is used as learning data for model learning related to another input similar to the input to the cooperative system. 2 The key extraction model learning method described in any one of 1 above.
2 3 . キーワード抽出モデル学習ステップで、 連携システムへのある入力に対 応する音声を、 該連携システムへの入力と類似しない別の入力に関するモデル学 習の負例の学習データとして用いる請求項 1 6から請求項 2 2のうちのいずれか 1項に記載のキーヮード抽出モデル学習方法。 2 3. In the keyword extraction model learning step, the voice corresponding to an input to the cooperative system is used as learning data of a negative example of model learning related to another input that is not similar to the input to the cooperative system. The key word extraction model learning method according to any one of claims 6 to 22.
2 4 . キーワード抽出モデル学習ステップで、 予め与えられた制約に基づいて 連携システムへの入力を 1つ以上のクラスタに分類し、 各クラスタに関する学習 をまとめて行う請求項 1 6から請求項 2 3のうちのいずれか 1項に記載のキーヮ 一ド抽出モデル学習方法。 2 4. In the keyword extraction model learning step, the input to the cooperation system is classified into one or more clusters based on a predetermined constraint, and learning about each cluster is performed collectively. The key map extraction model learning method according to any one of the above.
2 5 .キーヮード抽出モデル学習ステップで学習するキーヮ一ド抽出モデルは、 ある音声の一部がいずれかのキーヮードの発話であるかの尤度を返すキーヮード 区間モデルと、 ある音声の一部が各キーヮードの発話であるかの尤度を返すキー ヮ一ド認識モデルと、 の 2種類のモデルからなり、 2 5. Key extraction model Learning in the key extraction model learning step consists of a key interval model that returns the likelihood that a part of speech is utterance of one of the keywords, and a part of speech It consists of two models: a key recognition model that returns the likelihood of a key word utterance, and
前記キーヮ一ド抽出モデル学習ステップで、 前記 2種類のモデルを学習する 請求項 1 6から請求項 2 4のうちのいずれか 1項に記載のキーヮード抽出モデ ル学習方法。  The key extraction model learning method according to any one of claims 16 to 24, wherein the two types of models are learned in the key map extraction model learning step.
2 6 . キーワード抽出モデル学習ステップで、 連携システムへの入力と、 前記 入力に対応する可能性の高い音声の一区間を見つけ出し、 この区間の音声と、 を 用いて学習を行う請求項 1 6から請求項 2 5のうちのいずれか 1項に記載のキー ヮード抽出モデル学習方法。 26. In the keyword extraction model learning step, an input to the cooperative system and a section of speech that is highly likely to correspond to the input are found, and learning is performed using the speech of this section and The method for learning a key word extraction model according to claim 1.
2 7 . キーワード抽出モデル学習ステップで、 入力に対応する音声または前記 入力に対応する音声の書き起こしを用いて学習を行う請求項 1 6から請求項 2 6 のうちのいずれか 1項に記載のキーヮード抽出モデル学習方法。 27. The learning according to any one of claims 16 to 26, wherein learning is performed using a speech corresponding to an input or a transcription of a speech corresponding to the input in the keyword extraction model learning step. A key extraction model learning method.
2 8 . 請求項 1 6から請求項 2 7のうちのいずれか 1項に記載のキーヮード抽 出モデル学習方法で学習したキ一ヮ一ド抽出モデルを用いることを特徴とするキ ーヮ一ド抽出方法。 28. A key extraction using a key extraction model learned by the key extraction model learning method according to any one of claims 16 to 27. Method.
2 9 . 請求項 2 8に記載のキーヮード抽出方法を用いることを特徴とする情報 入力方法。 29. An information input method using the keyword extraction method according to claim 28.
3 0 . 請求項 2 8に記載のキーヮード抽出方法を用いることを特徴とする情報 検索方法。 30. An information search method using the key word extraction method according to claim 28.
3 1 . 音声からキーワードを抽出するキーワード抽出モデルを学習するための キ一ヮ一ド抽出モデル学習プログラムであって、 コンピュータに、 3 1. A key extraction model learning program for learning a keyword extraction model for extracting keywords from speech, On the computer,
連携システムへの入力と、 前記入力に対応する音声とを用いて学習を行うキー ヮ一ド抽出モデル学習処理を  A key extraction model learning process that performs learning using the input to the cooperation system and the voice corresponding to the input.
実行させるためのキーワード抽出モデル学習プログラム。  Keyword extraction model learning program for execution.
3 2 . 連携システムへの入力は少なくともテキスト情報を^^む請求項 3 1記載 のキーヮード抽出モデル学習プログラム。 3 2. The key word extraction model learning program according to claim 31, wherein at least text information is input to the linkage system.
3 3 . 連携システムへの入力に対応する音声は、 前記連携システムへの入力に 対応する一部と、 対応しない一部のいずれをも含む請求項 3 1または請求項 3 2 記載のキーヮード抽出モデル学習プログラム。 3. The key extraction model according to claim 3, wherein the voice corresponding to the input to the cooperative system includes both a part corresponding to the input to the cooperative system and a part not corresponding to the voice. Learning program.
3 4 . コンピュータに、 3 4.
キーヮード抽出モデル学習処理で、 連携システムへの入力に対して高い尤度を 返すようにキーヮード抽出モデルを学習する処理を実行させる  In the key extraction model learning process, execute a process to learn the key extraction model so that a high likelihood is returned for the input to the cooperative system.
請求項 3 1から請求項 3 3のうちのいずれか 1項に記載のキーヮード抽出モデ ル学習プログラム。  The key word extraction model learning program according to any one of claims 31 to 33.
3 5 . コンピュータに、 3 5.
キ一ヮ一ド抽出モデル学習処理で、 連携システムへの入力に対応する音声また は対応する音声の一部に対して高い尤度を返すようにキーヮード抽出モデルを学 習する処理を実行させる  In the key extraction model learning process, the key extraction model learning process is executed so as to return a high likelihood to the voice corresponding to the input to the cooperative system or a part of the corresponding voice.
請求項 3 1から請求項 3 4のうちのいずれか 1項に記載のキーヮード抽出モデ ル学習プログラム。  The key word extraction model learning program according to any one of claims 31 to 34.
3 6 . コンピュータに、 3 6.
キ一ヮ一ド抽出モデル学習処理で、 連携システムへの入力に対応しない音声ま たは対応しない音声の一部に対して低い尤度を返すようにキーヮ一ド抽出モデル を学習する処理を実行させる 請求項 3 1から請求項 3 5のうちのいずれか 1項に記載のキーヮード抽出モデ ル学習プログラム。 Executes key key extraction model learning processing to learn a key key extraction model so as to return a low likelihood to a part of speech that does not correspond to the input to the linkage system or part of the speech that does not correspond Make The key word extraction model learning program according to any one of claims 31 to 35.
3 7 . コンピュータに、 3 7.
キーワード抽出モデル学習処理で、 連携システムへのある入力に対応する音声 を、 該連携システムへの入力と類似した別の入力に関するモデル学習の学習デー タとして用いる処理を実行させる  In the keyword extraction model learning process, execute a process that uses speech corresponding to an input to the linked system as learning data for model learning related to another input similar to the input to the linked system.
請求項 3 1から請求項 3 6のうちのいずれか 1項に記載のキーヮード抽出モデ ル学習プ  A keyword extraction model learning program according to any one of claims 3 1 to 36.
口グラム。 Mouth gram.
3 8 . コンピュータに、 3 8.
キ一ヮ一ド抽出モデル学習処理で、 連携システムへのある入力に対応する音声 を、 該連携システムへの入力と類似しな 、別の入力に関するモデル学習の負例の 学習データとして用いる処理を実行させる  The key extraction model learning process uses speech corresponding to an input to a collaborative system as learning data that is similar to the input to the collaborative system and is a negative example of model learning for another input. Execute
請求項 3 1から請求項 3 7のうちのいずれか 1項に記載のキーヮード抽出モデ /レ学習プログラム。  The key word extraction model / learning program according to any one of claims 3 1 to 37.
3 9 . コンピュータに、 3 9.
キーヮード抽出モデル学習処理で、 予め与えられた制約に基づいて連携システ ムへの入力を 1つ以上のクラスタに分類し、 各クラスタに関する学習をまとめて 行う処理を実行させる  In the keyword extraction model learning process, the input to the cooperation system is classified into one or more clusters based on the given constraints, and the process for performing learning related to each cluster is executed.
請求項 3 1から請求項 3 8のうちのいずれか 1項に記載のキーワード抽出モデ ル学習プログラム。  The keyword extraction model learning program according to any one of claims 31 to 38.
4 0 . キーワード抽出モデル学習処理で学習するキーワード抽出モデルは、 あ る音声の一部がいずれかのキーヮードの発話であるかの尤度を返すキ一ヮ一ド区 間モデルと、 ある音声の一部が各キーヮードの発話であるかの尤度を返すキーヮ 一ド認識モデルと、 の 2種類のモデルからなり、 コンピュータに、 4 0. The keyword extraction model learned by the keyword extraction model learning process includes a keyword interval model that returns the likelihood that a part of a certain speech is an utterance of any key word, It consists of two models: a key recognition model that returns the likelihood that a part is an utterance of each key word, and On the computer,
前記キ一ヮ一ド抽出モデル学習処理で、 前記 2種類のモデルを学習する処理を 実行させる  In the key extraction model learning process, the process of learning the two types of models is executed.
請求項 3 1から請求項 3 9のうちのいずれか 1項に記載のキーヮード抽出モデ ル学習プログラム。  The key word extraction model learning program according to any one of claims 31 to 39.
4 1 . コンピュータに、 4 1.
キーワード抽出モデル学習処理で、 連携システムへの入力と、 前記入力に対応 する可能性の高い音声の一区間を見つけ出し、 この区間の音声と、 を用いて学習 を行う処理を実行させる  In the keyword extraction model learning process, the input to the cooperation system and a section of speech that is highly likely to correspond to the input are found, and the process of performing learning using the speech of this section and is executed.
請求項 3 1から請求項 4 0のうちのいずれか 1項に記載のキーヮ一ド抽出モデ ル学習プログラム。  The key model extraction model learning program according to any one of claims 31 to 40.
4 2 . コンピュータに、 4 2.
キーヮード抽出モデル学習処理で、 入力に対応する音声または前記入力に対応 する音声の書き起こしを用いて学習を行う処理を実行させる  In the keyword extraction model learning process, execute a process to perform learning using the speech corresponding to the input or the transcription of the speech corresponding to the input.
請求項 3 1から請求項 4 1のうちのいずれか 1項に記載のキーワード抽出モデ ル学習プログラム。  The keyword extraction model learning program according to any one of claims 31 to 41.
PCT/JP2008/060506 2007-06-06 2008-06-02 Keyword extraction model learning system, method, and program WO2008150003A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009517922A JP5360414B2 (en) 2007-06-06 2008-06-02 Keyword extraction model learning system, method and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2007-150082 2007-06-06
JP2007150082 2007-06-06

Publications (1)

Publication Number Publication Date
WO2008150003A1 true WO2008150003A1 (en) 2008-12-11

Family

ID=40093806

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/060506 WO2008150003A1 (en) 2007-06-06 2008-06-02 Keyword extraction model learning system, method, and program

Country Status (2)

Country Link
JP (1) JP5360414B2 (en)
WO (1) WO2008150003A1 (en)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010277036A (en) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp Speech data retrieval device
JP2012108867A (en) * 2010-10-29 2012-06-07 Nippon Telegr & Teleph Corp <Ntt> Data extraction device, data extraction method, and program therefor
JP2015520410A (en) * 2012-04-27 2015-07-16 インタラクティブ・インテリジェンス・インコーポレイテッド Performance improvement based on negative example (anti-word) for speech recognition
JP2020190605A (en) * 2019-05-21 2020-11-26 株式会社 ディー・エヌ・エー Speech processing apparatus and speech processing program
US11755652B2 (en) 2017-11-24 2023-09-12 Ntt Docomo, Inc. Information-processing device and information-processing method
JP7345897B2 (en) 2021-11-30 2023-09-19 政志 松本 Data storage device, data storage method, and data storage program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61196360A (en) * 1985-02-27 1986-08-30 Nec Corp Word processor
JPS6281699A (en) * 1985-10-07 1987-04-15 株式会社リコー Forming and updating method for dictoinary for voice word processor
JPH06214593A (en) * 1993-01-19 1994-08-05 Sony Corp Word processor
JPH11231886A (en) * 1998-02-18 1999-08-27 Denso Corp Registered name recognition device
JP2001092494A (en) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp Device and method for recognizing speech, and speech recognition program recording medium
JP2001249920A (en) * 1999-10-05 2001-09-14 Microsoft Corp Method and system for providing candidate for text from inference input source
JP2004341293A (en) * 2003-05-16 2004-12-02 Toyota Motor Corp Device and method for converting speech into character data, and program and interaction device therefor

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61196360A (en) * 1985-02-27 1986-08-30 Nec Corp Word processor
JPS6281699A (en) * 1985-10-07 1987-04-15 株式会社リコー Forming and updating method for dictoinary for voice word processor
JPH06214593A (en) * 1993-01-19 1994-08-05 Sony Corp Word processor
JPH11231886A (en) * 1998-02-18 1999-08-27 Denso Corp Registered name recognition device
JP2001092494A (en) * 1999-09-24 2001-04-06 Mitsubishi Electric Corp Device and method for recognizing speech, and speech recognition program recording medium
JP2001249920A (en) * 1999-10-05 2001-09-14 Microsoft Corp Method and system for providing candidate for text from inference input source
JP2004341293A (en) * 2003-05-16 2004-12-02 Toyota Motor Corp Device and method for converting speech into character data, and program and interaction device therefor

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010277036A (en) * 2009-06-01 2010-12-09 Mitsubishi Electric Corp Speech data retrieval device
JP2012108867A (en) * 2010-10-29 2012-06-07 Nippon Telegr & Teleph Corp <Ntt> Data extraction device, data extraction method, and program therefor
JP2015520410A (en) * 2012-04-27 2015-07-16 インタラクティブ・インテリジェンス・インコーポレイテッド Performance improvement based on negative example (anti-word) for speech recognition
US11755652B2 (en) 2017-11-24 2023-09-12 Ntt Docomo, Inc. Information-processing device and information-processing method
JP2020190605A (en) * 2019-05-21 2020-11-26 株式会社 ディー・エヌ・エー Speech processing apparatus and speech processing program
JP7360814B2 (en) 2019-05-21 2023-10-13 株式会社 ディー・エヌ・エー Audio processing device and audio processing program
JP7345897B2 (en) 2021-11-30 2023-09-19 政志 松本 Data storage device, data storage method, and data storage program

Also Published As

Publication number Publication date
JPWO2008150003A1 (en) 2010-08-26
JP5360414B2 (en) 2013-12-04

Similar Documents

Publication Publication Date Title
US9911413B1 (en) Neural latent variable model for spoken language understanding
US10170107B1 (en) Extendable label recognition of linguistic input
US8392188B1 (en) Method and system for building a phonotactic model for domain independent speech recognition
US10490182B1 (en) Initializing and learning rate adjustment for rectifier linear unit based artificial neural networks
Arisoy et al. Turkish broadcast news transcription and retrieval
JP5440177B2 (en) Word category estimation device, word category estimation method, speech recognition device, speech recognition method, program, and recording medium
US7620548B2 (en) Method and system for automatic detecting morphemes in a task classification system using lattices
WO2003010754A1 (en) Speech input search system
WO2002054385A1 (en) Computer-implemented dynamic language model generation method and system
KR20110095338A (en) Assigning an indexing weight to a search term
JP5326169B2 (en) Speech data retrieval system and speech data retrieval method
EP2842124A1 (en) Negative example (anti-word) based performance improvement for speech recognition
JP5360414B2 (en) Keyword extraction model learning system, method and program
KR101424193B1 (en) System And Method of Pronunciation Variation Modeling Based on Indirect data-driven method for Foreign Speech Recognition
JP3444108B2 (en) Voice recognition device
JP6001944B2 (en) Voice command control device, voice command control method, and voice command control program
JP2010277036A (en) Speech data retrieval device
KR20050101695A (en) A system for statistical speech recognition using recognition results, and method thereof
JPH09134192A (en) Statistical language model forming device and speech recognition device
Rebai et al. LinTO Platform: A Smart Open Voice Assistant for Business Environments
JP4986301B2 (en) Content search apparatus, program, and method using voice recognition processing function
KR20050101694A (en) A system for statistical speech recognition with grammatical constraints, and method thereof
JP2005250071A (en) Method and device for speech recognition, speech recognition program, and storage medium with speech recognition program stored therein
JPH11143493A (en) Device and system for understanding voice word
Pranjol et al. Bengali speech recognition: An overview

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08765307

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2009517922

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08765307

Country of ref document: EP

Kind code of ref document: A1