JP2010267012A - 音声データ検索システム及び音声データ検索方法 - Google Patents
音声データ検索システム及び音声データ検索方法 Download PDFInfo
- Publication number
- JP2010267012A JP2010267012A JP2009116784A JP2009116784A JP2010267012A JP 2010267012 A JP2010267012 A JP 2010267012A JP 2009116784 A JP2009116784 A JP 2009116784A JP 2009116784 A JP2009116784 A JP 2009116784A JP 2010267012 A JP2010267012 A JP 2010267012A
- Authority
- JP
- Japan
- Prior art keywords
- subword
- search
- search result
- correct
- incorrect
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】サブワード認識によって、音声データを、音素を単位とする第1サブワード列に変換し、ユーザによって入力された検索キーワードを、音素を単位とする第2サブワード列に変換し、第1サブワード列において、第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、検索キーワードの検索結果に決定し、検索キーワードが発話された時刻を検出し、ユーザによって選択された正解又は不正解のデータを検索結果に付与し、正解又は不正解のデータに基づいて、サブワード置換確率を算出することを特徴とする音声データ検索システム。
【選択図】図1
Description
以下、本発明の第1の実施形態について図面を参照して説明する。
サブワード認識正誤傾向推定部111は、サブワード置換確率をサブワード認識正誤傾向保持部112に出力する。サブワード認識正誤傾向保持部112は、サブワード置換確率を含むサブワード認識正誤傾向推定結果を保持する。
なお、当該音声コーパスのサブワード列のサブワードaがサブワード認識結果のサブワードbに一度も割り当てられない場合、確率の平滑化をすることによって、サブワードaからサブワードbへのサブワード置換確率を算出することができる。簡単な方法としては、出現しなかった割当てに対して、一定の確率値を与えた後、下記の式を満たすように確率値の正規化を行なうとよい。
次に、算出されたサブワード置換確率及び正誤入力部108によって付与された正解/不正解ラベルに基づき、最大事後確率推定によって、サブワード認識結果の正誤傾向を推定する。ここで、サブワード認識結果の正誤傾向は、あるサブワード認識結果rに対して、実際にその音声がサブワードhである確率P(h|r)として表現される。
これによって、Naが非常に小さい場合にP(R=b|H=a)の推定値の分散が大きくなる問題を避けることができる。
以下、本発明の第2の実施形態について図面を参照して説明する。
102 サブワード認識部
103 サブワード列記憶部
104 キーワード入力部
105 サブワード変換部
106 キーワード検索部
107 検索結果表示部
108 正誤入力部
109 音声情報抽出部
110 正誤傾向相関計算部
111 サブワード認識正誤傾向推定部
112 サブワード認識正誤傾向保持部
1101 音声データ記憶部
1102 サブワード認識部
1103 サブワード列記憶部
1104 キーワード入力部
1105 サブワード変換部
1106 キーワード検索部
1107 検索結果表示部
1108 正誤入力部
1109 音声情報抽出部
1110 正誤傾向相関計算部
1111 サブワード認識正誤傾向推定部
1112 サブワード認識正誤傾向保持部
Claims (14)
- 音声データを検索するためのシステムであって、
プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
前記プロセッサは、
サブワード認識によって、検索の対象とされる前記音声データを、音素を単位とする第1サブワード列に変換し、
ユーザによって入力された検索キーワードを、音素を単位とする第2サブワード列に変換し、
前記第1サブワード列において、前記第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記検索キーワードの検索結果に決定し、
前記音声データにおいて前記検索結果が表れる時刻を前記検索キーワードが発話された時刻として検出し、
前記決定された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与し、
前記検索結果に付与された正解又は不正解のデータに基づいて、前記検索結果の各音素が前記第2サブワード列の各音素に対して正しく置換された確率を示すサブワード置換確率を算出することを特徴とするシステム。 - 前記プロセッサは、前記算出されたサブワード置換確率に基づいて、前記検索結果の検索スコアを算出することを特徴とする請求項1に記載のシステム。
- 前記プロセッサは、
前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間に記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
さらに、前記検索結果と前記第2サブワード列とを音素毎に比較した場合、前記第2サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第2サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出しないことを特徴とする請求項1又は2に記載のシステム。 - 前記プロセッサは、前記検索結果の少なくとも一の音声情報と前記検索結果に付与された不正解のデータとの間の相関が高いと判定された場合、前記検索結果の検索スコアを所定の値だけ下げることを特徴とする請求項3に記載のシステム。
- 前記プロセッサは、
複数の検索キーワードを選択し、
前記第1サブワード列において、前記選択された複数の検索キーワードの各第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記複数の検索キーワードの検索結果に決定し、
前記算出されたサブワード置換確率に基づいて、前記複数の検索結果の検索スコアを算出し、
前記算出された検索スコアが所定の閾値以上である場合、前記検索結果をユーザに表示し、
前記表示された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与することを特徴とする請求項1に記載のシステム。 - 前記プロセッサは、あるテキストコーパスの中で頻出する単語を前記複数の検索キーワードとして選択することを特徴とする請求項5に記載のシステム。
- 前記プロセッサは、あるテキストコーパスの中で頻出する単語のうち、前記頻出する単語のサブワード列に含まれるサブワードの分布のエントロピーが最大となる所定の数の単語を、前記複数の検索キーワードとして選択することを特徴とする請求項5に記載のシステム。
- 音声データを検索するためのシステムにおいて実行される音声データ検索方法であって、
前記システムは、プロセッサと、前記プロセッサに接続されるメモリと、記憶装置と、を備える少なくとも一以上の計算機を備え、
前記音声データ検索方法は、前記プロセッサが、
サブワード認識によって、検索の対象とされる前記音声データを、音素を単位とする第1サブワード列に変換し、
ユーザによって入力された検索キーワードを、音素を単位とする第2サブワード列に変換し、
前記第1サブワード列において、前記第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記検索キーワードの検索結果に決定し、
前記音声データにおいて前記検索結果が表れる時刻を前記検索キーワードが発話された時刻として検出し、
前記決定された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与し、
前記検索結果に付与された正解又は不正解のデータに基づいて、前記検索結果の各音素が前記第2サブワード列の各音素に対して正しく置換された確率を示すサブワード置換確率を算出することを特徴とする音声データ検索方法。 - 前記プロセッサが、前記算出されたサブワード置換確率に基づいて、前記検索結果の検索スコアを算出することを特徴とする請求項8に記載の音声データ検索方法。
- 前記プロセッサが、
前記検索結果の韻律、前記検索結果の前後の音素、並びに、前記検索結果が含まれる所定の区間に記録された話者、感情及び背景音の特徴を示す情報を前記検索結果の音声情報として抽出し、
さらに、前記検索結果と前記第2サブワード列とを音素毎に比較した場合、前記第2サブワード列には含まれるが前記検索結果には含まれない音素、及び、前記第2サブワード列には含まれないが前記検索結果には含まれる音素を前記検索結果の音声情報として抽出し、
前記抽出された検索結果の少なくとも一の音声情報と、前記検索結果に付与された正解又は不正解のデータと、の間の相関を計算し、
前記検索結果の少なくとも一の音声情報と前記検索結果に付与された正解又は不正解のデータとの間の相関が高いと判定された場合、前記検索結果に対応する各音素のサブワード置換確率を算出しないことを特徴とする請求項8又は9に記載の音声データ検索方法。 - 前記プロセッサが、前記検索結果の少なくとも一の音声情報と前記検索結果に付与された不正解のデータとの間の相関が高いと判定された場合、前記検索結果の検索スコアを所定の値だけ下げることを特徴とする請求項10に記載の音声データ検索方法。
- 前記プロセッサが、
複数の検索キーワードを選択し、
前記第1サブワード列において、前記選択された複数の検索キーワードの各第2サブワード列との編集距離が最も小さくなる少なくとも一以上の区間を、前記複数の検索キーワードの検索結果に決定し、
前記算出されたサブワード置換確率に基づいて、前記複数の検索結果の検索スコアを算出し、
前記算出された検索スコアが所定の閾値以上である場合、前記検索結果をユーザに表示し、
前記表示された検索結果に、前記ユーザによって選択された正解又は不正解のデータを付与することを特徴とする請求項8に記載の音声データ検索方法。 - 前記プロセッサが、あるテキストコーパスの中で頻出する単語を前記複数の検索キーワードとして選択することを特徴とする請求項12に記載の音声データ検索方法。
- 前記プロセッサが、あるテキストコーパスの中で頻出する単語のうち、前記頻出する単語のサブワード列に含まれるサブワードの分布のエントロピーが最大となる所定の数の単語を、前記複数の検索キーワードとして選択することを特徴とする請求項12に記載の音声データ検索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009116784A JP5326169B2 (ja) | 2009-05-13 | 2009-05-13 | 音声データ検索システム及び音声データ検索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009116784A JP5326169B2 (ja) | 2009-05-13 | 2009-05-13 | 音声データ検索システム及び音声データ検索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010267012A true JP2010267012A (ja) | 2010-11-25 |
JP5326169B2 JP5326169B2 (ja) | 2013-10-30 |
Family
ID=43363948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009116784A Expired - Fee Related JP5326169B2 (ja) | 2009-05-13 | 2009-05-13 | 音声データ検索システム及び音声データ検索方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5326169B2 (ja) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118918A (ja) * | 2010-12-03 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法、情報検索プログラム |
JP2013109061A (ja) * | 2011-11-18 | 2013-06-06 | Hitachi Ltd | 音声データ検索システムおよびそのためのプログラム |
WO2014033855A1 (ja) * | 2012-08-29 | 2014-03-06 | 株式会社日立製作所 | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 |
WO2014203328A1 (ja) * | 2013-06-18 | 2014-12-24 | 株式会社日立製作所 | 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体 |
US20160284345A1 (en) | 2013-11-06 | 2016-09-29 | Systran International Co., Ltd. | System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content |
JP2017097062A (ja) * | 2015-11-19 | 2017-06-01 | 日本電信電話株式会社 | 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム |
CN112037774A (zh) * | 2017-10-24 | 2020-12-04 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
CN112634870A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
JP7333490B1 (ja) | 2022-10-13 | 2023-08-24 | アクションパワー コーポレイション | 音声信号に関連するコンテンツを決定する方法、コンピューター可読保存媒体に保存されたコンピュータープログラム及びコンピューティング装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031278A (ja) * | 2004-07-14 | 2006-02-02 | Nec Corp | 音声検索システムおよび方法ならびにプログラム |
JP2006243673A (ja) * | 2005-03-07 | 2006-09-14 | Canon Inc | データ検索装置および方法 |
WO2007043679A1 (ja) * | 2005-10-14 | 2007-04-19 | Sharp Kabushiki Kaisha | 情報処理装置およびプログラム |
-
2009
- 2009-05-13 JP JP2009116784A patent/JP5326169B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006031278A (ja) * | 2004-07-14 | 2006-02-02 | Nec Corp | 音声検索システムおよび方法ならびにプログラム |
JP2006243673A (ja) * | 2005-03-07 | 2006-09-14 | Canon Inc | データ検索装置および方法 |
WO2007043679A1 (ja) * | 2005-10-14 | 2007-04-19 | Sharp Kabushiki Kaisha | 情報処理装置およびプログラム |
Non-Patent Citations (2)
Title |
---|
前田勇希、外1名: "音素認識に基づく音声全文検索", 第33回 言語・音声理解と対話処理研究会資料(SIG−SLUD−A102), JPN6013018869, 5 November 2001 (2001-11-05), JP, pages 1 - 6, ISSN: 0002563159 * |
神田直之、外3名: "任意語彙音声発話検索のための多段階リスコアリング手法の性能評価", 第2回音声ドキュメント処理ワークショップ講演論文集, JPN6013018870, 1 March 2008 (2008-03-01), JP, pages 73 - 78, ISSN: 0002563160 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012118918A (ja) * | 2010-12-03 | 2012-06-21 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索システム、情報検索方法、情報検索プログラム |
JP2013109061A (ja) * | 2011-11-18 | 2013-06-06 | Hitachi Ltd | 音声データ検索システムおよびそのためのプログラム |
WO2014033855A1 (ja) * | 2012-08-29 | 2014-03-06 | 株式会社日立製作所 | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 |
JP5897718B2 (ja) * | 2012-08-29 | 2016-03-30 | 株式会社日立製作所 | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 |
WO2014203328A1 (ja) * | 2013-06-18 | 2014-12-24 | 株式会社日立製作所 | 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体 |
JP2016539364A (ja) * | 2013-11-06 | 2016-12-15 | シストラン・インターナショナル・カンパニー・リミテッドSystran International Co., Ltd. | 録取された音声データに対する核心語の取出に基づく発話内容の把握システムと、このシステムを用いたインデクシング方法及び発話内容の把握方法 |
US20160284345A1 (en) | 2013-11-06 | 2016-09-29 | Systran International Co., Ltd. | System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content |
US10304441B2 (en) | 2013-11-06 | 2019-05-28 | Systran International Co., Ltd. | System for grasping keyword extraction based speech content on recorded voice data, indexing method using the system, and method for grasping speech content |
JP2017097062A (ja) * | 2015-11-19 | 2017-06-01 | 日本電信電話株式会社 | 読み付与装置、音声認識装置、読み付与方法、音声認識方法、およびプログラム |
CN112037774A (zh) * | 2017-10-24 | 2020-12-04 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
CN112037774B (zh) * | 2017-10-24 | 2024-04-26 | 北京嘀嘀无限科技发展有限公司 | 用于关键短语识别的系统和方法 |
CN112634870A (zh) * | 2020-12-11 | 2021-04-09 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
CN112634870B (zh) * | 2020-12-11 | 2023-05-30 | 平安科技(深圳)有限公司 | 关键词检测方法、装置、设备和存储介质 |
JP7333490B1 (ja) | 2022-10-13 | 2023-08-24 | アクションパワー コーポレイション | 音声信号に関連するコンテンツを決定する方法、コンピューター可読保存媒体に保存されたコンピュータープログラム及びコンピューティング装置 |
JP2024058553A (ja) * | 2022-10-13 | 2024-04-25 | アクションパワー コーポレイション | 音声信号に関連するコンテンツを決定する方法、コンピューター可読保存媒体に保存されたコンピュータープログラム及びコンピューティング装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5326169B2 (ja) | 2013-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5326169B2 (ja) | 音声データ検索システム及び音声データ検索方法 | |
US9418152B2 (en) | System and method for flexible speech to text search mechanism | |
JP5100089B2 (ja) | 3d検索アルゴリズムを用いる楽曲情報検索 | |
JP6013951B2 (ja) | 環境音検索装置、環境音検索方法 | |
US9640175B2 (en) | Pronunciation learning from user correction | |
US8380505B2 (en) | System for recognizing speech for searching a database | |
JP5377430B2 (ja) | 質問応答データベース拡張装置および質問応答データベース拡張方法 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP4887264B2 (ja) | 音声データ検索システム | |
JP2003036093A (ja) | 音声入力検索システム | |
TW201203222A (en) | Voice stream augmented note taking | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
JP5753769B2 (ja) | 音声データ検索システムおよびそのためのプログラム | |
EP1933302A1 (en) | Speech recognition method | |
WO2014203328A1 (ja) | 音声データ検索システム、音声データ検索方法、及びコンピュータ読み取り可能な記憶媒体 | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP5590549B2 (ja) | 音声検索装置および音声検索方法 | |
JP4764203B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5124012B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP2005275348A (ja) | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 | |
Kruspe et al. | Retrieval of song lyrics from sung queries | |
JP4986301B2 (ja) | 音声認識処理機能を用いたコンテンツ検索装置、プログラム及び方法 | |
JPWO2013125203A1 (ja) | 音声認識装置、音声認識方法およびコンピュータプログラム | |
JP4313267B2 (ja) | 対話理解結果の信頼度算出処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120208 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120309 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130423 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130625 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5326169 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |