JP4738847B2 - データ検索装置および方法 - Google Patents
データ検索装置および方法 Download PDFInfo
- Publication number
- JP4738847B2 JP4738847B2 JP2005063149A JP2005063149A JP4738847B2 JP 4738847 B2 JP4738847 B2 JP 4738847B2 JP 2005063149 A JP2005063149 A JP 2005063149A JP 2005063149 A JP2005063149 A JP 2005063149A JP 4738847 B2 JP4738847 B2 JP 4738847B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- subword
- search
- recognition
- keyword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
(2)任意のキーワード(あるいはフレーズ)を使用できるもの。
本実施形態では、データ検索装置の一例として、画像データに関連付けられた音声データを用いて画像データを検索する画像データ検索装置について説明する。なお、本発明に係る検索の対象は画像データに限定されるものではなく、文書、図形などその他の種類のデータにも適用が可能である。
サブワード類似度計算部206における類似度の計算では、クエリサブワードがサブワード認識結果212に対して部分一致する場合に類似度が大きくなるような計算方法を用いても良い。その一例を以下で説明する。
実施形態1では、サブワード認識結果212に記憶するサブワード音声認識結果として、402(図4)に示すような認識結果の音節列を記憶する場合について説明したが、本発明はこれに限るものではなく、ラティス構造やグラフ構造でサブワード認識結果を表現したものを記憶しても良い。その一例を図5に示す。図5は、ノードとリンクを用いたグラフ構造で表現した音節音声認識結果である。ノード501、ノード505はそれぞれ認識結果の開始、終了を意味し、音節認識結果を構成する各音節は、501、505の間のノードで表現されている。502のノードを例に説明すると、音節名「お」が503に、さらに音節「お」の区間で計算された音声認識スコアが504に記述されている。開始ノード501から終了ノード505に至る経路を辿ることで、音節認識結果とその認識スコアを求めることができる。認識スコアは辿った経路上の各ノードに記録されている、その区間の音声認識スコアの和によって求まる。図5に示した例では、
「ふぁ お ね や ま あ」、
「ふぁ お ね や ま」、
「ふぁ こ ね や ま あ」、
「ふぁ こ ね や ま」、
の4個の音節認識結果が表現されており、それぞれの認識スコアは、
「ふぁ お ね や ま あ」:50+41+40+50+30+22=233、
「ふぁ お ね や ま」:50+41+40+50+30=211、
「ふぁ こ ね や ま あ」:50+38+40+50+30+22=230、
「ふぁ こ ね や ま」:50+38+40+50+30=208、
となる。
上述の実施形態1乃至実施形態3では、画像データ検索装置を例として、ユーザがキーボードなどで検索用キーワードを入力する態様を説明したが、同様の構成で、キーワードを音声によって入力する装置も実現が可能である。
以上、本発明の実施形態を詳述したが、本発明は、複数の機器から構成されるシステムに適用してもよいし、また、一つの機器からなる装置に適用してもよい。
Claims (12)
- 検索対象のデータがそれぞれ音声データと関連付けられて記憶されたデータベースから、ユーザにより入力されたキーワードを基にデータを検索するデータ検索装置であって、
前記データベース内の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する第1の音声認識手段と、
前記キーワードをサブワード表現形式に変換する変換手段と、
前記第1の音声認識手段により得られたサブワード表現形式の前記認識結果と、前記変換手段によりサブワード表現形式に変換された前記キーワードとに基づいて、前記キーワードと前記データベース内の各データに関連付けられた音声データとの類似度を計算する類似度計算手段と、
前記類似度計算手段により計算された前記類似度に基づき選択される1または2以上のデータの各々について、そのデータに関連付けられた音声データを入力とし、前記サブワード表現形式に変換された前記キーワードを認識対象語とする音声認識を行う第2の音声認識手段と、
前記第2の音声認識手段の認識スコアに基づいて検索スコアを計算する検索スコア計算手段と、
前記検索スコア計算手段により計算された前記検索スコアに基づいて選択される前記データベース内のデータを検索結果としてユーザに提示する検索結果提示手段と、
を有し、
前記検索スコア計算手段は、前記検索スコアとして、前記類似度計算手段により計算された類似度と前記第2の音声認識手段により得られた認識スコアとの重み付き和を計算する
ことを特徴とするデータ検索装置。 - 前記第1の音声認識手段および前記変換手段は、前記キーワードが入力される前にあらかじめ実行されるものであり、前記類似度計算手段、前記第2の音声認識手段、前記検索スコア計算手段、および前記検索結果提示手段は、前記キーワードが入力されたことに応じて動作することを特徴とする請求項1に記載のデータ検索装置。
- 前記類似度計算手段は、前記類似度として、前記変換手段によりサブワード表現形式に変換された前記キーワードを正解とする前記第1の音声認識手段により得られたサブワード表現形式の前記認識結果のサブワード正解率またはサブワード正解精度を計算することを特徴とする請求項1または2に記載のデータ検索装置。
- 前記サブワード正解精度は、正解サブワード数から挿入誤りサブワード数、置換誤りサブワード数、および削除誤りサブワード数をそれぞれ引いて得たサブワード数と、前記正解サブワード数との比でもって表されるものであって、前記挿入誤りサブワード数に所定の重み係数が乗じられることを特徴とする請求項3に記載のデータ検索装置。
- 前記サブワードは、音素または音節であることを特徴とする請求項1から4までのいずれか1項に記載のデータ検索装置。
- 前記第2の音声認識手段により実行される音声認識は、前記キーワードを認識対象語とするキーワードスポッティングであることを特徴とする請求項1から5までのいずれか1項に記載のデータ検索装置。
- 前記第2の音声認識手段は、前記類似度が大きい順に所定個数のデータを選択し、当該選択されたデータの各々について前記音声認識を行うことを特徴とする請求項1から6までのいずれか1項に記載のデータ検索装置。
- 前記第2の音声認識手段は、前記類似度が所定の値よりも大きい1または2以上のデータを選択し、当該選択されたデータの各々について前記音声認識を行うことを特徴とする請求項1から6までのいずれか1項に記載のデータ検索装置。
- 前記検索結果提示手段は、前記検索スコアが大きい順に所定個数のデータを検索結果として表示することを特徴とする請求項1から8までのいずれか1項に記載のデータ検索装置。
- 前記検索結果提示手段は、前記検索スコアが所定の値よりも大きいデータを検索結果として表示することを特徴とする請求項1から8までのいずれか1項に記載のデータ検索装置。
- 検索対象のデータがそれぞれ音声データと関連付けられて記憶されたデータベースから、ユーザにより入力されたキーワードを基にデータを検索するデータ検索装置によって実行されるデータ検索方法であって、
第1の音声認識手段が、前記データベース内の各データに関連付けられた音声データに対し音声認識を行い、サブワード表現形式で認識結果を出力する第1の音声認識ステップと、
変換手段が、前記キーワードをサブワード表現形式に変換する変換ステップと、
類似度計算手段が、前記第1の音声認識ステップにより得られたサブワード表現形式の前記認識結果と、前記変換ステップによりサブワード表現形式に変換された前記キーワードとに基づいて、前記キーワードと前記データベース内の各データに関連付けられた音声データとの類似度を計算する類似度計算ステップと、
第2の音声認識手段が、前記類似度計算ステップにより計算された前記類似度に基づき選択される1または2以上のデータの各々について、そのデータに関連付けられた音声データを入力とし、前記サブワード表現形式に変換された前記キーワードを認識対象語とする音声認識を行う第2の音声認識ステップと、
検索スコア計算手段が、前記第2の音声認識ステップでの認識スコアに基づいて検索スコアを計算する検索スコア計算ステップと、
検索結果提示手段が、前記検索スコア計算ステップにより計算された前記検索スコアに基づいて選択される前記データベース内のデータを検索結果としてユーザに提示する検索結果提示ステップと、
を有し、
前記検索スコア計算ステップでは、前記検索スコア計算手段が、前記検索スコアとして、前記類似度計算ステップで計算された類似度と前記第2の音声認識ステップで得られた認識スコアとの重み付き和を計算する
ことを特徴とするデータ検索方法。 - 請求項11に記載のデータ検索方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005063149A JP4738847B2 (ja) | 2005-03-07 | 2005-03-07 | データ検索装置および方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005063149A JP4738847B2 (ja) | 2005-03-07 | 2005-03-07 | データ検索装置および方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006243673A JP2006243673A (ja) | 2006-09-14 |
JP2006243673A5 JP2006243673A5 (ja) | 2008-04-03 |
JP4738847B2 true JP4738847B2 (ja) | 2011-08-03 |
Family
ID=37050105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005063149A Expired - Fee Related JP4738847B2 (ja) | 2005-03-07 | 2005-03-07 | データ検索装置および方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4738847B2 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4867654B2 (ja) * | 2006-12-28 | 2012-02-01 | 日産自動車株式会社 | 音声認識装置、および音声認識方法 |
WO2009028647A1 (ja) * | 2007-08-31 | 2009-03-05 | National Institute Of Information And Communications Technology | 非対話型学習装置及び対話型学習装置 |
JP5185807B2 (ja) * | 2008-12-16 | 2013-04-17 | ヤフー株式会社 | 音声検索装置、音声検索方法及び音声検索プログラム |
JP5326169B2 (ja) * | 2009-05-13 | 2013-10-30 | 株式会社日立製作所 | 音声データ検索システム及び音声データ検索方法 |
CN102023995B (zh) * | 2009-09-22 | 2013-01-30 | 株式会社理光 | 语音检索设备和语音检索方法 |
JP5491372B2 (ja) * | 2010-12-03 | 2014-05-14 | 日本電信電話株式会社 | 情報検索システム、情報検索方法、情報検索プログラム |
JP5957269B2 (ja) * | 2012-04-09 | 2016-07-27 | クラリオン株式会社 | 音声認識サーバ統合装置および音声認識サーバ統合方法 |
CN113468368A (zh) * | 2020-04-28 | 2021-10-01 | 海信集团有限公司 | 一种语音记事方法、装置、设备及介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63239499A (ja) * | 1987-03-27 | 1988-10-05 | 株式会社東芝 | 単語音声入力装置 |
JPH08211893A (ja) * | 1994-12-08 | 1996-08-20 | Toshiba Corp | 音声認識装置 |
JPH10173769A (ja) * | 1996-12-13 | 1998-06-26 | Matsushita Electric Ind Co Ltd | 音声メッセージ検索装置 |
JP3009640B2 (ja) * | 1997-09-10 | 2000-02-14 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 音響モデル生成装置及び音声認識装置 |
JP2000259645A (ja) * | 1999-03-05 | 2000-09-22 | Fuji Xerox Co Ltd | 音声処理装置及び音声データ検索装置 |
JP2002278579A (ja) * | 2001-03-16 | 2002-09-27 | Ricoh Co Ltd | 音声データ検索装置 |
JP2003219327A (ja) * | 2001-09-28 | 2003-07-31 | Canon Inc | 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ |
JP2004302175A (ja) * | 2003-03-31 | 2004-10-28 | Fuji Television Network Inc | 音声認識システム、音声認識方法及び音声認識プログラム |
JP4511274B2 (ja) * | 2004-07-29 | 2010-07-28 | 三菱電機株式会社 | 音声データ検索装置 |
-
2005
- 2005-03-07 JP JP2005063149A patent/JP4738847B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2006243673A (ja) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7177795B1 (en) | Methods and apparatus for semantic unit based automatic indexing and searching in data archive systems | |
US8751235B2 (en) | Annotating phonemes and accents for text-to-speech system | |
JP3848319B2 (ja) | 情報処理方法及び情報処理装置 | |
JP5257071B2 (ja) | 類似度計算装置及び情報検索装置 | |
US5949961A (en) | Word syllabification in speech synthesis system | |
JP5207642B2 (ja) | 語句として新たに認識するべき文字列を取得するためのシステム、方法及びコンピュータプログラム | |
US7966173B2 (en) | System and method for diacritization of text | |
JP4738847B2 (ja) | データ検索装置および方法 | |
US20070055493A1 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
US20080059190A1 (en) | Speech unit selection using HMM acoustic models | |
JPH03224055A (ja) | 同時通訳向き音声認識システムおよびその音声認識方法 | |
JP2008134475A (ja) | 入力された音声のアクセントを認識する技術 | |
US20080027725A1 (en) | Automatic Accent Detection With Limited Manually Labeled Data | |
CN103123644A (zh) | 声音数据检索系统及用于该系统的程序 | |
JP2002117027A (ja) | 感情情報抽出方法および感情情報抽出プログラムの記録媒体 | |
JP4587165B2 (ja) | 情報処理装置及びその制御方法 | |
JP6998017B2 (ja) | 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム | |
JP2000259645A (ja) | 音声処理装置及び音声データ検索装置 | |
JP2011007862A (ja) | 音声認識装置、音声認識プログラム、および音声認識方法 | |
JP2004184951A (ja) | クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム | |
JPH10269204A (ja) | 中国語文書自動校正方法及びその装置 | |
JP2003162524A (ja) | 言語処理装置 | |
JP3758241B2 (ja) | 音声情報検索装置 | |
JP2004294542A (ja) | 音声認識装置及びそのプログラム | |
JP2000353159A (ja) | 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080219 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080219 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100721 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100917 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110425 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110427 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |