JP2016018229A - 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム - Google Patents
音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム Download PDFInfo
- Publication number
- JP2016018229A JP2016018229A JP2014138333A JP2014138333A JP2016018229A JP 2016018229 A JP2016018229 A JP 2016018229A JP 2014138333 A JP2014138333 A JP 2014138333A JP 2014138333 A JP2014138333 A JP 2014138333A JP 2016018229 A JP2016018229 A JP 2016018229A
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- similarity
- feature vector
- voice
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】音声ドキュメント記憶部18に複数の話者による複数の音声ドキュメントが記憶される。話者特徴ベクトル空間類似度算出部14は、検索対象とする話者の話者特徴ベクトルと音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する。単語ベクトル空間類似度算出部15は、検索対象とするテキストの単語ベクトルと音声ドキュメントを音声認識した認識結果テキストの単語ベクトルとからテキスト類似度を算出する。類似度合算部16は、話者類似度とテキスト類似度を合算した話者テキスト類似度を算出する。検索結果出力部17は、話者類似度が高い音声ドキュメントを出力する。
【選択図】図1
Description
第一実施形態の音声ドキュメント検索装置は、図1に示すように、音声クエリ入力部10、テキストクエリ入力部11、話者特徴ベクトル抽出部12、単語ベクトル抽出部13、話者特徴ベクトル空間類似度算出部14、単語ベクトル空間類似度算出部15、類似度合算部16、検索結果出力部17、音声ドキュメント記憶部18及び類似度記憶部19を例えば含む。
第二実施形態の音声ドキュメント検索装置は、図3に示すように、第一実施形態と同様に、音声クエリ入力部10、テキストクエリ入力部11、話者特徴ベクトル抽出部12、単語ベクトル抽出部13、検索結果出力部17、音声ドキュメント記憶部18及び類似度記憶部19を例えば含み、音声ドキュメント話者特徴単語ベクトル作成部20、クエリ話者特徴単語ベクトル作成部21及び話者特徴単語ベクトル空間類似度算出部22をさらに含む。
以下、第一実施形態及び第二実施形態で利用する各特徴ベクトルの具体的な構成について詳述する。
第一実施形態もしくは第二実施形態では、ユーザは検索対象話者の話者特徴ベクトルもしくは音声データを用意する必要がある。この条件は現実的である。この発明では話者ラベルの付与を否定しているわけではないので、話者ラベルが付与されているデータであれば、目的話者の(目的外の)音声ドキュメントを得ることができる。この音声ドキュメントは本来検索したい発話内容とは内容が異なるもの、すなわち目的のものではないにせよ、当該話者の特徴を表すものであるから、それをクエリとして話者指定を行い、発話内容はテキストクエリとして入力することで、話者およびテキストが一致する、目的の音声ドキュメントを検索すればよい。
類似音声の選択手法及び装置が、「森島繁生他、“新映像技術「ダイブイントゥザムービー」”、電子情報通信学会誌、Vol. 94、No. 3、pp. 250-268、2011年3月(参考文献2)」に記載されている。参考文献2では、音声を入力とし、事前に登録された各音声ファイル(音声ドキュメント)との話者類似度を算出している。参考文献2はこの点においてこの発明に似たアイデアであるが、決定的に計算コストに関する考慮が欠落しているため音声ドキュメント検索には使用できない。実際、特徴量間の動的尺度やGMM尤度を算出するなど計算コストの大きな処理を前提としている。また、テキストを指定する方法について考慮されていない。参考文献2における特徴量は、フレーム(区分時間)ごとに抽出されており、音声データに対しては1つの行列(特徴量の次数×フレーム数)が得られる。この発明のような1つのベクトルではなく、この点も異なる。
上述した音声ドキュメント検索の特徴の1つ目を活かす構成として、第三実施形態の音声ドキュメント検索装置及び方法を説明する。
スマートフォンにおける音声検索や音声質問応答システム利用時の音声をデータベース化した。収音環境は様々で雑音も多分に含まれている。データベース上の音声ドキュメントのファイル数はおよそ11万である。1ファイルは1発話に相当するので、11万発話が存在することに相当する。各音声ドキュメントはファイル毎に音声認識技術により自動で発話の始端と終端が決定され、発話内容が書き起こされ、その後、認識結果中の内容語単語の頻度を要素とする単語ベクトルによって表現された。また同じく、ファイル毎に話者特徴ベクトルとしてi-vectorも事前に抽出し、データベース上に登録しておいた。5000クエリを与え、検索精度を比較した。話者、テキストともに類似度尺度としてコサイン類似度を用いた。
この発明によれば、話者指定型の音声ドキュメント検索において、大量の音声ドキュメントのすべての音声データに対して話者ラベルを付与しなくても、話者特徴ベクトルの類似度の高い話者の音声ドキュメントを検索結果として得ることができる。すなわち、それぞれに適切な話者ラベルを付与するような音声ドキュメントの整備は必要でなくなり、音声ドキュメントの整備にかかわる稼働やコストを削減できる。
上記実施形態で説明した各装置における各種の処理機能をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
11 テキストクエリ入力部
12 話者特徴ベクトル抽出部
13 単語ベクトル抽出部
14 話者特徴ベクトル空間類似度算出部
15 単語ベクトル空間類似度算出部
16 類似度合算部
17 検索結果出力部
18 音声ドキュメント記憶部
19 類似度記憶部
20 音声ドキュメント話者特徴単語ベクトル作成部
21 クエリ話者特徴単語ベクトル作成部
22 話者特徴単語ベクトル空間類似度算出部
30 話者ラベル入力部
31 目的話者特徴ベクトル記憶部
32 音声データ入力部
33 話者ラベル名付与部
40 高類似度候補記憶部
41 話者特徴ベクトル空間類似度算出部
Claims (7)
- 複数の話者による複数の音声ドキュメントを記憶する音声ドキュメント記憶部と、
検索対象とする話者の話者特徴ベクトルである目的話者特徴ベクトルと上記音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する話者特徴ベクトル空間類似度算出部と、
上記話者類似度が高い上記音声ドキュメントを出力する検索結果出力部と、
を含む音声ドキュメント検索装置。 - 請求項1に記載の音声ドキュメント検索装置であって、
検索対象とするテキストの単語ベクトルと上記音声ドキュメントを音声認識した認識結果テキストの単語ベクトルとからテキスト類似度を算出する単語ベクトル空間類似度算出部と、
上記話者類似度と上記テキスト類似度を合算した話者テキスト類似度を算出する類似度合算部と、
をさらに含み、
上記検索結果出力部は、上記話者テキスト類似度が高い上記音声ドキュメントを出力するものである
音声ドキュメント検索装置。 - 請求項1に記載の音声ドキュメント検索装置であって、
検索対象とするテキストの単語ベクトルと上記音声ドキュメントを音声認識した認識結果テキストの単語ベクトルとからテキスト類似度を算出する単語ベクトル空間類似度算出部と、
上記テキスト類似度が高い上記音声ドキュメントを特定する候補情報を記憶する高類似度候補記憶部と、
をさらに含み、
上記話者特徴ベクトル空間類似度算出部は、上記目的話者特徴ベクトルと上記候補情報により特定される上記音声ドキュメントを発話した話者の話者特徴ベクトルとから上記話者類似度を算出するものである
音声ドキュメント検索装置。 - 請求項1から3のいずれかに記載の音声ドキュメント検索装置であって、
検索対象とする話者が発話した音声データから話者特徴ベクトルを抽出して上記目的話者特徴ベクトルを生成する話者特徴ベクトル抽出部
をさらに含む音声ドキュメント検索装置。 - 請求項1から3のいずれかに記載の音声ドキュメント検索装置であって、
上記音声ドキュメントを発話した話者を特定する話者ラベルと当該話者の話者特徴ベクトルとを関連付けて記憶する目的話者特徴ベクトル記憶部と、
検索対象とする話者を特定する話者ラベルと一致する話者特徴ベクトルを上記目的話者特徴ベクトル記憶部から抽出して上記目的話者特徴ベクトルを生成する話者特徴ベクトル抽出部と、
をさらに含む音声ドキュメント検索装置。 - 音声ドキュメント記憶部に、複数の話者による複数の音声ドキュメントが記憶されており、
話者特徴ベクトル空間類似度算出部が、検索対象とする話者の話者特徴ベクトルである目的話者特徴ベクトルと上記音声ドキュメントを発話した話者の話者特徴ベクトルとから話者類似度を算出する話者特徴ベクトル空間類似度算出ステップと、
検索結果出力部が、上記話者類似度が高い上記音声ドキュメントを出力する検索結果出力ステップと、
を含む音声ドキュメント検索方法。 - 請求項1から5のいずれかに記載の音声ドキュメント検索装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014138333A JP6208631B2 (ja) | 2014-07-04 | 2014-07-04 | 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014138333A JP6208631B2 (ja) | 2014-07-04 | 2014-07-04 | 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016018229A true JP2016018229A (ja) | 2016-02-01 |
JP6208631B2 JP6208631B2 (ja) | 2017-10-04 |
Family
ID=55233447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014138333A Active JP6208631B2 (ja) | 2014-07-04 | 2014-07-04 | 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6208631B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016127938A (ja) * | 2016-02-02 | 2016-07-14 | サミー株式会社 | ぱちんこ遊技機 |
JP2016144639A (ja) * | 2016-02-02 | 2016-08-12 | サミー株式会社 | ぱちんこ遊技機 |
JP2019216408A (ja) * | 2018-06-08 | 2019-12-19 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 情報を出力するための方法、及び装置 |
WO2020066673A1 (ja) * | 2018-09-26 | 2020-04-02 | 日本電信電話株式会社 | タグ推定装置、タグ推定方法、プログラム |
US12002486B2 (en) | 2018-09-26 | 2024-06-04 | Nippon Telegraph And Telephone Corporation | Tag estimation device, tag estimation method, and program |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282857A (ja) * | 1998-03-27 | 1999-10-15 | Animo:Kk | 音声検索装置および記録媒体 |
JP2000250593A (ja) * | 1999-03-03 | 2000-09-14 | Fujitsu Ltd | 話者認識装置及び方法 |
WO2008114811A1 (ja) * | 2007-03-19 | 2008-09-25 | Nec Corporation | 情報検索システム、情報検索方法及び情報検索用プログラム |
JP2009216986A (ja) * | 2008-03-11 | 2009-09-24 | Hitachi Ltd | 音声データ検索システム及び音声データの検索方法 |
-
2014
- 2014-07-04 JP JP2014138333A patent/JP6208631B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11282857A (ja) * | 1998-03-27 | 1999-10-15 | Animo:Kk | 音声検索装置および記録媒体 |
JP2000250593A (ja) * | 1999-03-03 | 2000-09-14 | Fujitsu Ltd | 話者認識装置及び方法 |
WO2008114811A1 (ja) * | 2007-03-19 | 2008-09-25 | Nec Corporation | 情報検索システム、情報検索方法及び情報検索用プログラム |
JP2009216986A (ja) * | 2008-03-11 | 2009-09-24 | Hitachi Ltd | 音声データ検索システム及び音声データの検索方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016127938A (ja) * | 2016-02-02 | 2016-07-14 | サミー株式会社 | ぱちんこ遊技機 |
JP2016144639A (ja) * | 2016-02-02 | 2016-08-12 | サミー株式会社 | ぱちんこ遊技機 |
JP2019216408A (ja) * | 2018-06-08 | 2019-12-19 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | 情報を出力するための方法、及び装置 |
US11006179B2 (en) | 2018-06-08 | 2021-05-11 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for outputting information |
WO2020066673A1 (ja) * | 2018-09-26 | 2020-04-02 | 日本電信電話株式会社 | タグ推定装置、タグ推定方法、プログラム |
JP2020052611A (ja) * | 2018-09-26 | 2020-04-02 | 日本電信電話株式会社 | タグ推定装置、タグ推定方法、プログラム |
US12002486B2 (en) | 2018-09-26 | 2024-06-04 | Nippon Telegraph And Telephone Corporation | Tag estimation device, tag estimation method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP6208631B2 (ja) | 2017-10-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8756064B2 (en) | Method and system for creating frugal speech corpus using internet resources and conventional speech corpus | |
US9454957B1 (en) | Named entity resolution in spoken language processing | |
US10133538B2 (en) | Semi-supervised speaker diarization | |
US20180197548A1 (en) | System and method for diarization of speech, automated generation of transcripts, and automatic information extraction | |
CN107481720B (zh) | 一种显式声纹识别方法及装置 | |
WO2018149209A1 (zh) | 语音识别方法、电子设备以及计算机存储介质 | |
US10311147B2 (en) | Machine translation apparatus and machine translation method | |
WO2019148586A1 (zh) | 多人发言中发言人识别方法以及装置 | |
US9734828B2 (en) | Method and apparatus for detecting user ID changes | |
WO2020018787A1 (en) | Automatic speech recognition correction | |
EP2548202A1 (en) | Methods and apparatus for extracting alternate media titles to facilitate speech recognition | |
JPWO2008114811A1 (ja) | 情報検索システム、情報検索方法及び情報検索用プログラム | |
KR20190113712A (ko) | 환경 콘텍스트를 이용한 질문 답변 | |
JP6208631B2 (ja) | 音声ドキュメント検索装置、音声ドキュメント検索方法及びプログラム | |
CN105956053A (zh) | 一种基于网络信息的搜索方法及装置 | |
CN105206274A (zh) | 一种语音识别的后处理方法及装置和语音识别系统 | |
US20160210353A1 (en) | Data lookup and operator for excluding unwanted speech search results | |
US20140114656A1 (en) | Electronic device capable of generating tag file for media file based on speaker recognition | |
CN108197319A (zh) | 一种基于时频局部能量的特征点的音频检索方法和系统 | |
CN104750677A (zh) | 语音传译装置、语音传译方法及语音传译程序 | |
WO2020110815A1 (ja) | キーワード抽出装置、キーワード抽出方法、およびプログラム | |
CN111223487B (zh) | 一种信息处理方法及电子设备 | |
Javed et al. | Indicsuperb: A speech processing universal performance benchmark for indian languages | |
CN111798841A (zh) | 声学模型训练方法、系统、移动终端及存储介质 | |
CN111782779B (zh) | 语音问答方法、系统、移动终端及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20160914 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20170616 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20170627 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170907 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6208631 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |