JP2009295101A - 音声データ検索システム - Google Patents
音声データ検索システム Download PDFInfo
- Publication number
- JP2009295101A JP2009295101A JP2008150694A JP2008150694A JP2009295101A JP 2009295101 A JP2009295101 A JP 2009295101A JP 2008150694 A JP2008150694 A JP 2008150694A JP 2008150694 A JP2008150694 A JP 2008150694A JP 2009295101 A JP2009295101 A JP 2009295101A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- occurrence
- search
- keywords
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】インターネット上等に存在する大量のテキスト文書から,検索対象のキーワードとなり得る単語間の共起情報を抽出しておく。検索キーワードが入力された場合,共起情報から検索対象のキーワードに対応する共起キーワードを取得し,共起キーワードそれぞれについて,音声データからの検索処理を実行する。また,検索キーワードについても同様に検索処理を実行し,それらの検索結果と共起情報とのマッチング結果に基づいて検索キーワードの評価値を求め,検索キーワードの検索結果の順位付けを行う。
【選択図】図1
Description
A B C D E F
であった場合,前方2個,後方2個の共起キーワードを選択した場合,自立語と共起キーワードの組み合わせは,
A 前:() 後:(B,C)
B 前:(A) 後:(C,D)
C 前:(A,B) 後:(D,E)
D 前:(B,C) 後:(E,F)
E 前:(C,D) 後:(F)
F 前:(D,E) 後:()
となる。
A 前:(B,C) 後:(D,E)
A 前:(C,F) 後:(E,G)
A 前:(B,F) 後:(H,G)
であった場合,同じ位置に出現している共起キーワードに関して,頻度分布を求める。例えば,Aの前方2つ先に出現している共起キーワードは,上記の組み合わせよりB,C及びBであるため,B=2,C=1という頻度分布となる。同様に,各位置における頻度分布を求めると,
A 前:((B[2],C[1]),(C[1],F[2]))
後:((D[1],E[1]),H[1]),(E[1],G[2]))
という分布が得られる。上記において,[]内に示されている数値が各共起キーワードの頻度を表している。上記の例では,頻度情報として,単純に出現回数を集計した値を用いていたが,最も値の大きい頻度で正規化を行う方法や,テキスト文書中における出現確率で補正を行う方法等,一般的に使用される頻度情報の算出手法を用いることもできる。
E=F×N
で計算されるEを評価値として利用することができる。そして,共起情報中の全ての共起キーワードの組み合わせに対して同様の評価値を求め,最も大きな評価値を検索結果中において対象としている共起キーワードの組み合わせに対する評価値とする。図17では,1701に対応する評価値が7×5=35で最も大きいため,その値が1713として,1707から1712までの組み合わせに対する評価値として選択されていることが示されている。そして,選択された評価値があらかじめ定められた閾値より大きい場合,検索キーワードの候補位置と判定する。図17では,共起情報中の検索キーワード位置に対応する1710が候補位置と判定されることになる。
102 単語分割部
103 共起情報算出部
104 共起キーワード頻度情報
105 検索キーワード
106 音声データ
107 共起キーワード選択部
108 共起キーワード検索部
109 検索キーワード検索部
110 評価値計算部
111 検索結果
1501 候補位置決定部
1502 候補位置評価部
Claims (14)
- 複数のテキスト文書中の各々の文から抽出された,検索対象のキーワードになる可能性の高い単語からあらかじめ定められた範囲内に存在する単語である共起キーワードの種類とその頻度を,キーワード毎の共起キーワード頻度情報として格納した情報格納部と,
検索対象となる検索キーワードを入力する検索キーワード入力部と,
入力された検索キーワードに関連する共起キーワード頻度情報を前記情報格納部から取得し,検索キーワードに関連する共起キーワードを選択する共起キーワード選択部と,
検索対象である音声データを格納する音声データ格納部と,
前記共起キーワード選択部で選択された共起キーワードを前記音声データ格納部に格納された音声データ中から検索する共起キーワード検索部と,
前記入力された検索キーワードを前記音声データ格納部に格納された音声データ中から検索する検索キーワード検索部と,
前記検索キーワード検索部による検索キーワードの検索結果,前記共起キーワード検索部による共起キーワードの検索結果,及び前記共起キーワード選択部によって取得した検索キーワードに関連する共起キーワード頻度情報に基づいて,検索キーワードの検索結果の評価値を求め,当該評価値に基づいて検索結果の順位付けを行う評価値計算部と,
前記評価値によって順位付けを行った検索結果を出力する出力部と,
を有することを特徴とする音声データ検索システム。 - 請求項1記載の音声データ検索システムにおいて,前記情報格納部には,前記キーワード毎の共起キーワード頻度情報として,共起キーワードと,対象となるキーワードから見た共起キーワードの位置に関する情報,及びテキスト文書中でその位置に共起キーワードが出現した頻度に関する情報が格納されていることを特徴とする音声データ検索システム。
- 請求項1記載の音声データ検索システムにおいて,前記情報格納部には,前記キーワード毎の共起キーワード頻度情報として,対象となるキーワードの周囲に出現した共起キーワードの列と,それぞれの列がテキスト文書中に出現した頻度に関する情報が格納されていることを特徴とする音声データ検索システム。
- 請求項1記載の音声データ検索システムにおいて,前記共起キーワード選択部は,共起キーワード頻度情報中で,あらかじめ定められた閾値より大きい頻度を有するキーワード,あるいは,頻度が大きい順にキーワードを並べた場合に,上位からあらかじめ定められた個数のキーワードを,前記検索キーワードに関連する共起キーワードとして選択することを特徴とする音声データ検索システム。
- 請求項2記載の音声データ検索システムにおいて,前記評価値計算部は,前記検索キーワードの周囲に検出されたそれぞれの共起キーワードの種類と,前記検索キーワードに関連する共起キーワード頻度情報中の該当する位置に登録されている共起キーワードの種類を比較し,一致している共起キーワードに関する頻度情報を用いて前記評価値を算出することを特徴とする音声データ検索システム。
- 請求項3記載の音声データ検索システムにおいて,前記評価値計算部は,前記検索キーワードの周囲に検出されたそれぞれの共起キーワードの列と,検索キーワードに関連する共起キーワード頻度情報中の共起キーワードの列を比較し,一致度が最も高い共起キーワード列に対する頻度情報を用いて前記評価値を算出することを特徴とする音声データ検索システム。
- 請求項1記載の音声データ検索システムにおいて,前記出力部は,検索キーワードの周囲の共起キーワードの組み合わせ毎に検索結果を出力することを特徴とする音声データ検索システム。
- 請求項7記載の音声データ検索システムにおいて,前記出力部は,検索キーワードの周囲の共起キーワードの組み合わせと,共起キーワード頻度情報中の共起キーワードの組み合わせとの一致度に基づいて,共起キーワードの組み合わせに対する評価値を求め,その評価値から求めた順位によって共起キーワードの組み合わせを出力することを特徴とする音声データ検索システム。
- 請求項7記載の音声データ検索システムにおいて,前記出力部は,出力された共起キーワードの組み合わせのいずれかが選択されたとき,当該選択された共起キーワードの組み合わせに該当する,検索キーワードの検索結果を出力することを特徴とする音声データ検索システム。
- 請求項1記載の音声データ検索システムにおいて,前記出力部は前記検索キーワードの周囲の共起キーワードの組み合わせを出力し,そのいずれかひとつ,あるいは複数の共起キーワードの組み合わせが選択されたとき,前記評価部は該当する共起キーワードの組み合わせに対応する検索結果の優先順位を上げた評価値を計算し,前記出力部はその結果を出力することを特徴とする音声データ検索システム。
- 請求項1記載の音声データ検索システムにおいて,
テキスト文書中の各々の文を単語に分割する単語分割部と,
前記検索対象のキーワードになる可能性の高い単語からあらかじめ定められた範囲内に存在する単語である共起キーワードの種類とその頻度を,前記単語分割部によって分割したテキスト文書中の各々の文から抽出し,キーワード毎の共起キーワード頻度情報を作成する頻度情報算出部とを有し,
前記頻度情報算出部で作成された共起キーワード頻度情報を前記情報格納部に格納することを特徴とする音声データ検索システム。 - 複数のテキスト文書中の各々の文から抽出された,検索対象のキーワードになる可能性の高い単語からあらかじめ定められた範囲内に存在する単語である共起キーワードの種類とその頻度を,キーワード毎の共起キーワード頻度情報として格納した情報格納部と,
検索対象となる検索キーワードを入力する検索キーワード入力部と,
入力された検索キーワードに関連する共起キーワード頻度情報を前記情報格納部から取得し,検索キーワードに関連する共起キーワードを選択する共起キーワード選択部と,
検索対象である音声データを格納する音声データ格納部と,
前記共起キーワード選択部で選択された共起キーワードを前記音声データ格納部に格納された音声データ中から検索する共起キーワード検索部と,
前記共起キーワード検索部によって前記音声データ格納部に格納された音声データ中から共起キーワードを検索した結果と,前記共起キーワード選択部によって取得した検索キーワードに関連する共起キーワード頻度情報との一致度を計算し,当該一致度があらかじめ定められた値以上の箇所を検索キーワードの候補位置として求める候補位置決定部と,
前記候補位置決定部によって決定された候補位置を評価し候補位置の順位付けを行う候補位置評価部と,
前記候補位置評価部によって順位付けされた検索結果を出力する出力部と,
を有することを特徴とする音声データ検索システム。 - 請求項12記載の音声データ検索システムにおいて,前記候補位置決定部では,前記候補位置に対して,音響的な処理や音素・音節等の処理により,検索キーワードとの一致度を求め,その一致度と,前記共起キーワードの検索結果から得られる評価値とを用いることにより,候補位置の最終評価値を求め,当該最終評価値によって候補位置の順位付けを行うことを特徴とする音声データ検索システム。
- 請求項12記載の音声データ検索システムにおいて,
テキスト文書中の各々の文を単語に分割する単語分割部と,
前記検索対象のキーワードになる可能性の高い単語からあらかじめ定められた範囲内に存在する単語である共起キーワードの種類とその頻度を,前記単語分割部によって分割したテキスト文書中の各々の文から抽出し,キーワード毎の共起キーワード頻度情報を作成する頻度情報算出部とを有し,
前記頻度情報算出部で作成された共起キーワード頻度情報を前記情報格納部に格納することを特徴とする音声データ検索システム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008150694A JP5189413B2 (ja) | 2008-06-09 | 2008-06-09 | 音声データ検索システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008150694A JP5189413B2 (ja) | 2008-06-09 | 2008-06-09 | 音声データ検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009295101A true JP2009295101A (ja) | 2009-12-17 |
JP5189413B2 JP5189413B2 (ja) | 2013-04-24 |
Family
ID=41543200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008150694A Expired - Fee Related JP5189413B2 (ja) | 2008-06-09 | 2008-06-09 | 音声データ検索システム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5189413B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012189829A (ja) * | 2011-03-10 | 2012-10-04 | Fujitsu Ltd | 音声認識装置、音声認識方法、および音声認識プログラム |
JP2013137458A (ja) * | 2011-12-28 | 2013-07-11 | Toyota Motor Corp | 音声認識装置、方法、及びプログラム |
JP2020531942A (ja) * | 2017-08-22 | 2020-11-05 | サブプライ ソリューションズ エルティーディー. | 再セグメント化されたオーディオコンテンツを提供するための方法およびシステム |
CN117493588A (zh) * | 2023-12-28 | 2024-02-02 | 苏州元脑智能科技有限公司 | 检索结果的确定方法及装置、存储介质、电子装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1055196A (ja) * | 1996-08-09 | 1998-02-24 | Ricoh Co Ltd | 音声認識装置および方法、情報記憶媒体 |
JP2001005488A (ja) * | 1999-06-18 | 2001-01-12 | Mitsubishi Electric Corp | 音声対話システム |
JP2006031278A (ja) * | 2004-07-14 | 2006-02-02 | Nec Corp | 音声検索システムおよび方法ならびにプログラム |
JP2006040150A (ja) * | 2004-07-29 | 2006-02-09 | Mitsubishi Electric Corp | 音声データ検索装置 |
-
2008
- 2008-06-09 JP JP2008150694A patent/JP5189413B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1055196A (ja) * | 1996-08-09 | 1998-02-24 | Ricoh Co Ltd | 音声認識装置および方法、情報記憶媒体 |
JP2001005488A (ja) * | 1999-06-18 | 2001-01-12 | Mitsubishi Electric Corp | 音声対話システム |
JP2006031278A (ja) * | 2004-07-14 | 2006-02-02 | Nec Corp | 音声検索システムおよび方法ならびにプログラム |
JP2006040150A (ja) * | 2004-07-29 | 2006-02-09 | Mitsubishi Electric Corp | 音声データ検索装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012189829A (ja) * | 2011-03-10 | 2012-10-04 | Fujitsu Ltd | 音声認識装置、音声認識方法、および音声認識プログラム |
JP2013137458A (ja) * | 2011-12-28 | 2013-07-11 | Toyota Motor Corp | 音声認識装置、方法、及びプログラム |
JP2020531942A (ja) * | 2017-08-22 | 2020-11-05 | サブプライ ソリューションズ エルティーディー. | 再セグメント化されたオーディオコンテンツを提供するための方法およびシステム |
US11693900B2 (en) | 2017-08-22 | 2023-07-04 | Subply Solutions Ltd. | Method and system for providing resegmented audio content |
CN117493588A (zh) * | 2023-12-28 | 2024-02-02 | 苏州元脑智能科技有限公司 | 检索结果的确定方法及装置、存储介质、电子装置 |
CN117493588B (zh) * | 2023-12-28 | 2024-03-22 | 苏州元脑智能科技有限公司 | 检索结果的确定方法及装置、存储介质、电子装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5189413B2 (ja) | 2013-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7983915B2 (en) | Audio content search engine | |
JP3720068B2 (ja) | 質問の転記方法及び装置 | |
KR101913191B1 (ko) | 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법 | |
US7818173B2 (en) | Information retrieval system, method, and program | |
US9190054B1 (en) | Natural language refinement of voice and text entry | |
US20080270344A1 (en) | Rich media content search engine | |
US20080270110A1 (en) | Automatic speech recognition with textual content input | |
JP4887264B2 (ja) | 音声データ検索システム | |
JP5440177B2 (ja) | 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体 | |
JP5403696B2 (ja) | 言語モデル生成装置、その方法及びそのプログラム | |
JP2012194245A (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
JP2015138351A (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
JP5189413B2 (ja) | 音声データ検索システム | |
JP5642037B2 (ja) | 検索装置、検索方法およびプログラム | |
JP5447368B2 (ja) | 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム | |
JP5542559B2 (ja) | 音声検索インタフェース装置及び音声入力検索方法 | |
JP2008077252A (ja) | 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体 | |
JP2005122665A (ja) | 電子機器装置、関連語データベースの更新方法、プログラム | |
JP4478042B2 (ja) | 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置 | |
JP4592629B2 (ja) | 文書検索支援方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
JP5583230B2 (ja) | 情報検索装置及び情報検索方法 | |
JP2011113426A (ja) | 辞書作成装置,辞書作成プログラムおよび辞書作成方法 | |
JP2011048499A (ja) | 認識結果修正装置、画像処理装置、及びプログラム | |
JP4314271B2 (ja) | 単語間関連度算出装置、単語間関連度算出方法及び単語間関連度算出プログラム並びにそのプログラムを記録した記録媒体 | |
JP2008090396A (ja) | 電子文書検索方法、電子文書検索装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130115 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130124 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160201 Year of fee payment: 3 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5189413 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160201 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |