JP5561123B2 - 音声検索装置と音声検索方法 - Google Patents
音声検索装置と音声検索方法 Download PDFInfo
- Publication number
- JP5561123B2 JP5561123B2 JP2010263940A JP2010263940A JP5561123B2 JP 5561123 B2 JP5561123 B2 JP 5561123B2 JP 2010263940 A JP2010263940 A JP 2010263940A JP 2010263940 A JP2010263940 A JP 2010263940A JP 5561123 B2 JP5561123 B2 JP 5561123B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- search
- speech
- file
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/685—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
Description
図1は、本発明の一実施例に係わる音声検索装置100の機能配置を示す図である。
本発明をより十分に説明するために、以下、図3を参照して本発明の一実施例に基づいて音声検索システムの動作フローを説明する。図3は、より直感的に本発明の一実施例における音声検索システムの動作フローを示す図である。
以下、図4を参照して本発明の一実施例に係る音声検索方法を説明する。次に、さらに詳しく本発明の一実施例に係る、音声からノイズ除去するプロセスを含む音声検索方法を説明する。
ここで、Textidiは、目標テキストの唯一の標識であり、scoreiは、目標テキストの計算後の得点である。
ここで、Speechidjは、音声ファイルの唯一の識別標識であり、Speechscorejは、音声ファイルの得点である。
ここで、SSIdkは、音声セグメントの唯一の標識であり、SSScorekは、音声セグメントの初期点数であり、当該音声セグメントと検索用文字との間の相関度を表す。
ここで、TRScorekは、当該テキスト検索方法が音声セグメントSSIdkに付与した点数である。
最後、閾値trを設定し、ある音声セグメントの点数がこの閾値より大きければ、当該音声セグメントを保留する。さもなければ当該音声セグメントをノイズとして音声セグメントの集合から除去する。この閾値は、経験から設定してもよいし、学習トレーニングより得ても良い。
Claims (10)
- 検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索装置であって、
前記音声ファイルデータベースの前記音声ファイルと関連するテキスト情報を記憶する関連テキストデータベースと、
前記検索用文字により関連テキストデータベースから関連ドキュメントを検索する関連ドキュメント検索部と、
前記関連ドキュメント検索部により検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得部と、
前記対応音声ファイル取得部により取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う音声から音声への検索部と、
を含むことを特徴とする音声検索装置。 - 前記関連ドキュメントは、音声の標題と、音声に付随するデモドキュメントと、音声の文字内容とのうち一つ又はいくつかである、
ことを特徴とする請求項1に記載する音声検索装置。 - 前記検索用文字は、一つ又は複数のキーワード、一つ又は複数のセンテンス、或いは、一つ又は複数のドキュメントである、
ことを特徴とする請求項1に記載する音声検索装置。 - 前記音声から音声への検索部は、
前記対応音声ファイル取得部により取得された前記音声ファイルの各々に対して、音声セグメントに分割し、前記音声セグメントの集合を得る音声セグメント分割部と、
音声セグメント分割部により分割した前記音声セグメントの集合から、前記検索用文字と関連のない音声セグメントであるノイズを除去するノイズ除去部と、
前記ノイズ除去部によりノイズが除去された音声セグメントの集合を用いて、前記音声ファイルデータベースに対して検索を行う音声セグメントから音声への検索部と、
を含むことを特徴とする請求項1に記載する音声検索装置。 - 前記関連ドキュメント検索部は、前記関連テキストデータベースから、前記検索用文字との間の相関度がトップNに入ったドキュメント、又は、前記検索用文字との間の相関度が所定の閾値より大きいドキュメントを前記関連ドキュメントとする、
ことを特徴とする請求項1に記載する音声検索装置。 - 検索用文字により、音声ファイルが記憶されている音声ファイルデータベースの音声ファイルを検索する音声検索方法であって、
前記検索用文字により、前記音声ファイルデータベースの前記音声ファイルと相関するテキスト情報を記憶する関連テキストデータベースから関連ドキュメントを検索する第一検索ステップと、
前記第一検索ステップにより検索された前記関連ドキュメントを用いて、前記音声ファイルデータベースから対応する音声ファイルを取得する対応音声ファイル取得ステップと、
前記対応音声ファイル取得ステップにより取得された前記音声ファイルにより、前記音声ファイルデータベースに対して検索を行う第二検索ステップと、
を含むことを特徴とする音声検索方法。 - 前記関連ドキュメントは、音声の標題と、音声に付随するデモドキュメントと、音声の文字内容とのうち一つ又はいくつかである、
ことを特徴とする請求項6に記載する音声検索方法。 - 前記検索用文字は、一つ又は複数のキーワード、一つ又は複数のセンテンス、或いは、一つ又は複数のドキュメントである、
ことを特徴とする請求項6に記載する音声検索方法。 - 前記第二検索ステップは、
前記対応音声ファイル取得ステップにより取得された前記音声ファイルの各々に対して、音声セグメントに分割し、前記音声セグメントの集合を得る音声セグメント分割ステップと、
前記音声セグメント分割ステップにより分割した前記音声セグメントの集合から、前記検索用文字と関連のない音声セグメントであるノイズを除去するノイズ除去ステップと、
前記ノイズ除去ステップによりノイズが除去された音声セグメントの集合を用いて、前記音声ファイルデータベースに対して検索を行うステップと、
を含むことを特徴とする請求項6に記載する音声検索方法。 - 前記第一検索ステップは、前記関連テキストデータベースから、前記検索用文字との間の相関度がトップNに入ったドキュメント、又は、前記検索用文字との間の相関度が所定の閾値より大きいドキュメントを前記関連ドキュメントとする、
ことを特徴とする請求項6に記載する音声検索方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200910249847.2A CN102081634B (zh) | 2009-11-27 | 2009-11-27 | 语音检索装置和语音检索方法 |
CN200910249847.2 | 2009-11-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011113570A JP2011113570A (ja) | 2011-06-09 |
JP5561123B2 true JP5561123B2 (ja) | 2014-07-30 |
Family
ID=43661866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010263940A Expired - Fee Related JP5561123B2 (ja) | 2009-11-27 | 2010-11-26 | 音声検索装置と音声検索方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8316004B2 (ja) |
EP (1) | EP2348427B1 (ja) |
JP (1) | JP5561123B2 (ja) |
CN (1) | CN102081634B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365849B (zh) * | 2012-03-27 | 2016-06-15 | 富士通株式会社 | 关键词检索方法和设备 |
CA2823835C (en) * | 2012-08-15 | 2018-04-24 | Homer Tlc, Inc. | Voice search and response based on relevancy |
CN102999639B (zh) * | 2013-01-04 | 2015-12-09 | 努比亚技术有限公司 | 一种基于语音识别字符索引的查找方法及系统 |
JP6003972B2 (ja) * | 2014-12-22 | 2016-10-05 | カシオ計算機株式会社 | 音声検索装置、音声検索方法及びプログラム |
CN106021249A (zh) * | 2015-09-16 | 2016-10-12 | 展视网(北京)科技有限公司 | 一种基于内容的语音文件检索方法和系统 |
CN106504773B (zh) * | 2016-11-08 | 2023-08-01 | 上海贝生医疗设备有限公司 | 一种可穿戴装置及语音与活动监测系统 |
CN106683669A (zh) * | 2016-11-23 | 2017-05-17 | 河池学院 | 一种机器人语音控制系统 |
CN108345679B (zh) * | 2018-02-26 | 2021-03-23 | 科大讯飞股份有限公司 | 一种音视频检索方法、装置、设备及可读存储介质 |
CN109684096A (zh) * | 2018-12-29 | 2019-04-26 | 北京超图软件股份有限公司 | 一种软件程序资源化处理方法及装置 |
CN109920409B (zh) * | 2019-02-19 | 2021-07-09 | 标贝(深圳)科技有限公司 | 一种声音检索方法、装置、系统及存储介质 |
CN116013296B (zh) * | 2023-03-28 | 2023-05-30 | 国网浙江省电力有限公司营销服务中心 | 基于计算机自然语言处理的搜索方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1125112A (ja) * | 1997-07-04 | 1999-01-29 | N T T Data:Kk | 対話音声処理方法及び装置、記録媒体 |
JPH11282857A (ja) * | 1998-03-27 | 1999-10-15 | Animo:Kk | 音声検索装置および記録媒体 |
US6366907B1 (en) | 1999-12-15 | 2002-04-02 | Napster, Inc. | Real-time search engine |
JP2002312369A (ja) * | 2001-04-17 | 2002-10-25 | Canon Inc | 音声コンテンツ検索システム及び情報処理装置とそれらの方法 |
US7526425B2 (en) | 2001-08-14 | 2009-04-28 | Evri Inc. | Method and system for extending keyword searching to syntactically and semantically annotated data |
JP4595415B2 (ja) * | 2004-07-14 | 2010-12-08 | 日本電気株式会社 | 音声検索システムおよび方法ならびにプログラム |
US8694317B2 (en) * | 2005-02-05 | 2014-04-08 | Aurix Limited | Methods and apparatus relating to searching of spoken audio data |
US7809568B2 (en) * | 2005-11-08 | 2010-10-05 | Microsoft Corporation | Indexing and searching speech with text meta-data |
US7680853B2 (en) * | 2006-04-10 | 2010-03-16 | Microsoft Corporation | Clickable snippets in audio/video search results |
US20080270110A1 (en) * | 2007-04-30 | 2008-10-30 | Yurick Steven J | Automatic speech recognition with textual content input |
WO2009032672A1 (en) * | 2007-08-28 | 2009-03-12 | Nexidia Inc. | Keyword spotting using a phoneme-sequence index |
CN101364222B (zh) * | 2008-09-02 | 2010-07-28 | 浙江大学 | 一种两阶段的音频检索方法 |
-
2009
- 2009-11-27 CN CN200910249847.2A patent/CN102081634B/zh not_active Expired - Fee Related
-
2010
- 2010-10-19 EP EP10251818A patent/EP2348427B1/en active Active
- 2010-10-22 US US12/910,148 patent/US8316004B2/en not_active Expired - Fee Related
- 2010-11-26 JP JP2010263940A patent/JP5561123B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP2348427B1 (en) | 2012-11-21 |
JP2011113570A (ja) | 2011-06-09 |
CN102081634B (zh) | 2015-07-08 |
EP2348427A1 (en) | 2011-07-27 |
US20110131236A1 (en) | 2011-06-02 |
CN102081634A (zh) | 2011-06-01 |
US8316004B2 (en) | 2012-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5561123B2 (ja) | 音声検索装置と音声検索方法 | |
JP4791984B2 (ja) | 入力された音声を処理する装置、方法およびプログラム | |
JP6493866B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US10037758B2 (en) | Device and method for understanding user intent | |
US9330661B2 (en) | Accuracy improvement of spoken queries transcription using co-occurrence information | |
US6839667B2 (en) | Method of speech recognition by presenting N-best word candidates | |
JP5541035B2 (ja) | 音声検索装置及び音声検索方法 | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
JP2003036093A (ja) | 音声入力検索システム | |
US20120239390A1 (en) | Apparatus and method for supporting reading of document, and computer readable medium | |
US11443734B2 (en) | System and method for combining phonetic and automatic speech recognition search | |
US7921014B2 (en) | System and method for supporting text-to-speech | |
WO2014187096A1 (en) | Method and system for adding punctuation to voice files | |
JP5824829B2 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2004523004A (ja) | 階層言語モデル | |
JP5221768B2 (ja) | 翻訳装置、及びプログラム | |
JP5897718B2 (ja) | 音声検索装置、計算機読み取り可能な記憶媒体、及び音声検索方法 | |
JP2010277036A (ja) | 音声データ検索装置 | |
KR101069534B1 (ko) | 미등록어를 포함한 환경에서 오디오 및 비디오의 음성 데이터 검색 방법 및 장치 | |
Hussain et al. | Dactor: A data collection tool for the relater project | |
JP3958908B2 (ja) | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 | |
JP2009129405A (ja) | 感情推定装置、事例感情情報生成装置、及び感情推定プログラム | |
JP2009204732A (ja) | 音声認識装置、音声認識辞書作成方法およびプログラム | |
JP2008181537A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
Zhou et al. | Predicting and tagging dialog-act using MDP and SVM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20131011 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140312 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140513 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140526 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5561123 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
LAPS | Cancellation because of no payment of annual fees |