JP2004145161A - Speech database registration processing method, speech generation source recognizing method, speech generation section retrieving method, speech database registration processing device, speech generation source recognizing device, speech generation section retrieving device, program therefor, and recording medium for same program - Google Patents

Speech database registration processing method, speech generation source recognizing method, speech generation section retrieving method, speech database registration processing device, speech generation source recognizing device, speech generation section retrieving device, program therefor, and recording medium for same program Download PDF

Info

Publication number
JP2004145161A
JP2004145161A JP2002312074A JP2002312074A JP2004145161A JP 2004145161 A JP2004145161 A JP 2004145161A JP 2002312074 A JP2002312074 A JP 2002312074A JP 2002312074 A JP2002312074 A JP 2002312074A JP 2004145161 A JP2004145161 A JP 2004145161A
Authority
JP
Japan
Prior art keywords
speech
voice
source
sources
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002312074A
Other languages
Japanese (ja)
Other versions
JP3980988B2 (en
Inventor
Hidenobu Osada
長田 秀信
Naoko Kosugi
小杉 尚子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002312074A priority Critical patent/JP3980988B2/en
Publication of JP2004145161A publication Critical patent/JP2004145161A/en
Application granted granted Critical
Publication of JP3980988B2 publication Critical patent/JP3980988B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a means making it possible to precisely retrieve a speaking section of a desired speaker even when video and audio include a part wherein a plurality of speakers speak at the same time. <P>SOLUTION: In a speaker speech registration phase, not only feature quantities of the voice of a speaker himself/herself, but also feature quantities of a voice composed of speech signals of a plurality of speakers are extracted and registered in a speech database 1. In a speaker retrieval phase, an input speech signal to be retrieved is segmented into short sections and feature quantities of the respective short sections are collated with feature quantities in the speech database 1 to recognize speakers. In a speaking section determination phase, retrieval results of speakers of the respective short sections are totalized in every fixed number of short sections and speaking sections of the speakers are found according to appearance frequencies of the speakers. In a speaker information display phase, the retrieval results of the speaking section are displayed. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は,話者認識等に用いる音声データベース登録,音声発生源認識,音声発生区間検索の技術に関し,特に,例えば放送用の番組などの撮影ならびに収録された映像(以下,映像音声という)に対し,その映像音声中の話者情報を,収録開始からの時間情報とともに,自動的に記録媒体へと記録し,その記録された話者情報をもとに,映像中における特定話者の発話した時間帯を検索するような場合に用いられる技術に関するものである。
【0002】
【従来の技術】
映像音声中における特定話者の発話区間を検索(以下,発話区間検索という)する場合,一般に,話者の判断に検索しようとする話者の音声を事前登録したもの(以下,登録話者音声という)を用いる方法がある(例えば,非特許文献1参照)。
【0003】
通常,登録話者音声には所望の話者が単独で発話する音声(以下,これを単独話者音声という)を30〜120秒ほど用い,それから符号帳を作成する。発話区間検索の際にはこの符号帳を用い,番組の先頭から逐次音声特徴量を抽出して符号帳と照らし合わせるなどの処理により,所望の話者の発話区間を検出する。これによって,例えば,話者Aが発話した時間は番組開始から数えてT0 秒からT1 秒まで,話者Bの発話した時間はT2 秒からT3 秒まで,というような結果を得ることができる。
【0004】
一般に,テレビ番組などでは同時に発話する話者がいて,話者が必ずしも一人とは限らず,上記の例でT0 <T2 <T1 <T3 となる場合がある。このとき,T2 〜T1 区間では複数の話者(この場合は話者Aと話者B)が同時に発話していることになり,この部分を単独話者音声から作成された符号帳を用いて正しく検索することが難しいのが現状である。
【0005】
例えば,前述のケース(T0 <T2 <T1 <T3 となるケース)では,本来なら話者Aの発話時間はT0 〜T1 であるにもかかわらず,T2 〜T1 の区間が正確に検出できず,発話区間検索による結果において,話者Aの発話区間がT0 〜T2 (T2 <T1 )と検出されるなどの誤った結果を得ることがある。また,話者Aの会話と同時に音楽が挿入されている場合にも,話者Aの発話区間を誤って検出することがある。
【0006】
さらに,発話は有音部だけではない(文章の切れ目がある)ため,符号帳には無音部分の特徴が反映され,このことが原因で,微小時間単位でのベクトル同士の距離のみを用いて話者を判断すると,誤りが生じる場合がある。
【0007】
例えば,ある区間の特徴ベクトルが,話者Bの符号帳における特徴ベクトルのうちの一つに最も距離が近かったとする。しかし,実際にはこの区間の話者はAであり,たまたま検索キーとなったベクトルが,話者Bの符号帳を作る際に登録されていた一部の無音区間の特徴を反映した特徴ベクトルとの距離が最も近かった,というようなケースである。このような場合には,単純にある時間における映像音声の特徴ベクトルをキーとしてデータベース検索を行うだけでは不十分である。
【0008】
このように,多くのバリエーションを持つ一般的なテレビ番組等の映像音声を対象にして従来方式に基づいて話者の発話区間検索を行う場合には,一般に,その精度が著しく低下してしまう。
【0009】
【非特許文献1】
F.K. Soong et al.,”A vector quantization approach to speaker recognition,”Proc.ICASSP,pp.387−390
【0010】
【発明が解決しようとする課題】
以上のように,従来の単独話者音声のみから符号帳を作成する方法では,複数の話者が同時に発話する部分を含むような一般的な映像音声から正確に所望の話者の発話区間を得ることは難しい。また,長時間の映像中から複数の話者が同時に発話する部位を手作業で探し出して,それを登録話者音声として用いる方法も考えられるが,この方法は極めて非効率的であり実用化が困難である。
【0011】
本発明は,このような問題点の解決を図り,映像音声中に複数話者が同時に発話する部分があっても,精度良く話者検索を行うことができるようにすることを目的とする。
【0012】
【課題を解決するための手段】
本発明は,人間の発声に限らず,鳥,虫などの動物の鳴き声や,機械音についての音声発生源の認識,音声発生区間の検索に用いることができるが,以下の説明では,主として人間の話者認識,話者の発話区間の検索を例に説明する。
【0013】
図1は,本発明の概要を説明するための図である。
【0014】
通常,音声信号の特徴量を学習データとして登録する際には,図1(A)に示すように,各話者の音声A,Bの特徴を個別に音声データベース1に格納するのが普通である。検索段階では,入力音声がA,Bに対してどのくらい類似するのか,またその時間変化はどうかなどの計算を行い,最終的に入力音声が登録音声のどれに合致するのかを決定する。
【0015】
しかし,検索対象の入力音声に,音声Aと音声Bとが混じっているようなケースでは,音声データベース1に適切な学習データがないため,うまく検索結果を得ることが難しい。音声A,Bが混ざったA+Bというような音声が入力された場合,通常では入力音声に対する検索結果を時間的,確率的に処理して,AかBか,あるいはそうでないかを判断する。したがって,精度の良い検索はできない。一方,音声Aと音声Bとが混じっているものを予め学習データとして録音することは,手間がかかるし,不可能な場合がある。
【0016】
そこで,本発明では,図1(B)に示すように,予め用意された学習音声信号を任意の組合せで合算し,その特徴も音声データベース1に再帰的に登録する。すなわち,音声A,音声Bの特徴を音声データベース1に登録するだけでなく,仮想的にA+Bという音声を一時的に作り,その特徴も音声データベース1に登録する。これによって,音声Aと音声Bとが混じっている場合にも,音声A,音声Bについて検索することが可能になる。
【0017】
図2に,本発明に係る装置の構成図を示す。発話区間検索装置10は,話者情報登録手段11と,音声信号組合せ手段12と,音声特徴量抽出手段13と,特徴量格納手段14と,話者検索手段15と,話者検索結果処理手段16と,発話区間情報表示手段17とを備える。
【0018】
ここで,テレビ番組などの映像を映像音声と呼び,映像音声を任意の時間ごとに時系列的に区切ったものの一つを短区間映像音声と呼び,時系列的に連続した短区間映像音声を複数個ずつひとまとまりにしたものの一つを中短区間映像音声と呼ぶことにする。
【0019】
話者情報登録手段11は,映像音声から任意の箇所を切り出して,登録話者音声の候補として利用者に提示する。例えば,番組から不特定の話者音声を自動的に一定時間,複数個切り出して利用者に提示する。利用者は,提示された複数の候補から登録話者音声として用いるものを判断し,用いると判断されたものに関しては話者名などの付加的な情報を書き加える。
【0020】
音声信号組合せ手段12は,利用者が登録話者音声として選択した複数個の単独話者音声の音声信号を任意の組合せで足し合わせたものを作成し,それを登録話者音声に加える。すなわち,複数の話者が同時に発話している音声や,音声のバックに音楽が流れているような音声を仮想的に生成し,登録話者音声に加える。
【0021】
音声特徴量抽出手段13は,すべての登録話者音声から,個別に音声特徴量を抽出する。音声特徴量の抽出では,音声信号から線形予測法などに代表される一般的な信号処理方法を用いることができる。
【0022】
特徴量格納手段14は,音声特徴量抽出手段13によって抽出された話者の音声特徴量を,話者名などの話者情報とともに音声データベース1に格納する。
【0023】
話者検索手段15は,発話区間検索の検索対象とする映像音声を入力し,映像音声を短区間に区切り,そのそれぞの短区間映像音声から抽出された音声特徴量と音声データベース1に格納された音声特徴量とを時間順に比較し,それらの類似度を算出し,最も類似度の高い結果を返す。
【0024】
話者検索結果処理手段16は,上記の類似度計算によって得られた短区間映像音声の話者検索結果を時系列的に連続した複数個ごとに集計し,検索結果名ごとに現れる回数をリストにしたものを出力する。すなわち,映像音声の全時間領域にわたって,話者検索手段15により得られた結果を,中短区間映像音声ごとに集計し,出現した回数をもとに,所望の話者の発話区間を割り出す。
【0025】
発話区間情報表示手段17は,上記の出力に基づき,所望の話者が発話した時間帯情報を番組の先頭からの時間とともに端末画面に表示する。または,ある指定された時間における発話者情報を,その時間の映像とともに端末画面に表示する。
【0026】
図2に示す発話区間検索装置10の動作は,以下のとおりである。話者音声登録フェーズでは,話者情報登録手段11によって入力された話者の音声を音声信号組合せ手段12によって任意に組合せ,組み合わせた音声と組み合わされる前の音声との両方から,音声特徴量抽出手段13によって特徴量を抽出し,それらを特徴量格納手段14によって音声データベース1に格納する。次に,話者検索フェーズでは,検索対象となる映像音声から音声特徴量抽出手段13によって特徴量を抽出し,抽出された特徴量を検索キーとして,話者検索手段15により類似度に基づいて検索を行う。次に,発話区間決定フェーズでは,得られた検索結果から話者検索結果処理手段16により,検索結果として得られた回数をもとに所望の話者の発話区間を割り出す。話者情報表示フェーズでは,発話区間情報表示手段17によりあらかじめ登録された付加的な話者情報とともに端末画面に表示する。
【0027】
以上のような手段により,本発明では,利用者があらかじめ発話区間検索装置10によって提示されたいくつかの単独話者音声を選んで登録話者音声とするだけで,自動的に複数話者の同時発話の音声や音楽挿入部分の発話音声が作られ,これらが登録話者音声として追加される。
【0028】
また,利用者が登録話者音声を選ぶ際に,人物名やその他の付加情報を入力することができ,利用者の入力した情報と登録話者音声との関連付けが自動的になされる。また,本発明の発話区間検索装置10によって,自動的に番組の全区間に渡る音声特徴量が逐次算出され,あらかじめ格納された登録話者音声の音声特徴量との類似度が算出され,ある閾値以上を示した音声について登録話者の音声であると判断する。また,番組全時間に渡って得られた短区間映像音声についての話者検索結果を中短区間ごとに集計し,所望の話者の発話区間を決定する。
【0029】
図2に示す話者情報登録手段11と,音声信号組合せ手段12と,音声特徴量抽出手段13と,特徴量格納手段14とによって,本発明に係る音声データベース登録処理装置を構成することができる。
【0030】
また,図2に示す話者情報登録手段11と,音声信号組合せ手段12と,音声特徴量抽出手段13と,特徴量格納手段14と,話者検索手段15とによって,本発明に係る音声発生源認識装置を構成することができる。
【0031】
以上の各手段は,CPUおよびメモリなどからなるコンピュータとソフトウェアプログラムとによって実現することができ,そのプログラムは,コンピュータが読みとり可能な可搬媒体メモリ,半導体メモリ,ハードディスク等の適当な記録媒体に格納することができる。
【0032】
本発明と従来技術との違いは,以下のとおりである。従来の話者認識技術では,音声情報をデータベースに登録する際に,通常,検索したい音声(人の音声,あるいは機械音など)を単独登録し,入力音声がそれと一致するかどうかを判断していた。これに対し,本発明は,音声を単独登録するだけでなく,複数の音声を信号レベルで任意の重みで合成し,その特徴量を再帰的にデータベースに登録する。この点が従来技術と異なる点である。
【0033】
また,音声発生区間を検索する場合,従来技術では,一般的に検索結果の類似度を集計するなどして尤度を求めるが,本発明では,候補として並ぶ検索結果を一定時間集計し,頻出する結果を抽出する。このように出現回数で判断することにより,周囲環境音などが不規則に混入するような場合においても,目的とする音声発生区間を正しく検索することが可能になる。
【0034】
【発明の実施の形態】
以下,本発明の実施の形態を図を用いて説明する。
【0035】
〔実施の形態1〕
図3は,本発明の実施の形態1における発話区間検索装置の構成例を示す図である。本実施の形態1における発話区間検索装置10は,CPUおよびメモリ等からなるコンピュータであり,ソフトウェアプログラムおよび記憶装置等によって構成される入力部101,候補映像音声提示部102,登録用音声合成部103,特徴量抽出部104,特徴量格納部105,映像音声切り出し部106,検索部107,検索結果処理部108,話者情報格納部109,表示部110を備えている。また,本実施の形態1における発話区間検索装置10には,端末表示装置20が接続されている。
【0036】
発話区間検索装置10の動作は,〈話者音声登録フェーズ〉,〈話者検索フェーズ〉,〈発話区間決定フェーズ〉,〈話者情報表示フェーズ〉に分けることができる。以下,発話区間検索装置10の各フェーズの動作について,フローチャートを用いて説明する。
【0037】
〈話者音声登録フェーズ〉
図4は,本実施の形態1における話者音声登録フェーズの動作を説明するフローチャートである。はじめに,入力部101は,検索対象となる映像音声を入力し(ステップS10),候補映像音声提示部102は,入力した映像音声の中から任意の部分を切り出し,これを登録話者音声の候補(以下,登録用話者候補映像という)として利用者に提示する(ステップS11)。
【0038】
ここで,候補映像音声提示部102では,例えば,一般的な方法によって放送番組中から「人の声であり,一人が連続して一定時間(20〜60秒)話している部分」を検出し,登録用話者候補映像として利用者に複数個提示する。
【0039】
登録用話者候補映像が提示されると,利用者は,提示された登録用話者候補映像をそれぞれ視聴するなどし,登録話者音声として採用するか否かを決定する。候補映像音声提示部102は,利用者からの登録用話者候補映像(登録話者音声)の選択を受け(ステップS12),利用者からその登録話者に関する話者名などの情報(以下,登録話者情報という)を入力し(ステップS13),その登録話者情報と登録話者音声とを一時記録する(ステップS14)。利用者の指示により,検出が必要な話者数分だけ上記ステップS12〜S14(もしくはS11〜S14)を繰り返す(ステップS15)。
【0040】
上記処理では,例えば利用者が,提示された登録用話者侯捕映像の中からある一つを人物Aの音声として採用する場合,端末画面で提示されたその登録用話者侯捕映像を登録話者音声として選択し,選択した登録用話者侯捕映像の下に用意されたテキストボックスなどに「話者A」と入力することで,選択した登録用話者侯捕映像と「話者A」という登録話者情報との関連付けが行われる。登録話者情報として話者名を入力するだけではなく,性別,年齢,職業,所属会社などの情報も付加的に入力することができる。利用者は,検出が必要な人数分だけ上記作業を行う。
【0041】
複数人数分の登録話者音声が選択されると,次に,登録用音声合成部103は,選択された複数人数分の登録話者音声から任意の組合わせについて音声を合成して複数の登録話者音声が組み合わされた音声を生成し(ステップS16),候補映像音声提示部102で選択された登録話者音声に加える。
【0042】
ここで,例えば2名の話者が同時に発話している音声や,音楽や効果音を背景として発話が行われている音声などが作成され,それらが登録話者音声に加えられる。さらに具体的に説明すると,利用者が話者Aと話者Bの音声を登録話者音声として選択すると,登録用音声合成部103により自動的に話者A+Bの音声が生成され,話者A,話者B,話者A+Bの音声が登録話者音声となる。
【0043】
特徴量抽出部104は,すべての登録話者音声について,音声信号から線形予測法などに代表される一般的な特徴量を抽出する方法に従って音声特徴量を抽出し(ステップS17),それらの音声特徴量を特徴ベクトルとして特徴量格納部105の音声データベース1に記録する(ステップS18)。
【0044】
〈話者検索フェーズ〉
図5は,本実施の形態1における話者検索フェーズの動作を説明するフローチャートである。まず,入力部101によって検索対象となる番組の映像(映像音声)を入力し,映像音声切り出し部106によって,その入力映像音声を短時間ごとに区切って短区間映像音声を切り出す(ステップS20)。特徴量抽出部104は,切り出された短区間映像音声から音声特徴量(特徴ベクトル)を抽出する(ステップS21)。短区間の長さは,例えば10msから100ms程度の予め定めれた長さであるが,本発明の実施は,この長さに限られるわけではない。
【0045】
検索部107は,ステップS21で抽出された短区間映像音声の特徴ベクトルと,〈話者音声登録フェーズ〉において特徴量格納部105に格納されたすべての登録話者音声の特徴ベクトルとの類似度計算を行い(ステップS22),最も類似度が高かった登録話者音声の登録話者情報を検索結果とする(ステップS23)。ステップS20〜S23の処理を番組開始時間から番組終了時間まで繰り返し実行し(ステップS24),すべての短区間映像音声に対して検索結果を得る。
【0046】
次に,各短区間映像音声の検索結果を時系列的に連続な複数個(例えば100個)ごとにまとめ(以下,このまとまりを中短区間という),その中短区間ごとに検索結果を集計し(ステップS25),その集計結果を出現回数順にソートして結果リストを生成する(ステップS26)。この結果リストを,一つの中短区間映像音声に対する登録話者音声の検索結果として出力する(ステップS27)。すべての短区間映像音声の検索結果に対して,ステップS25〜S27の処理を繰り返して実行する(ステップS28)。
【0047】
ここで,中短区間映像音声が例えば100個の短区間映像音声の集合であるとすると,その中短区間内における100個の検索結果の内訳は,「話者名:出現回数」の形式で表すと,例えば[話者A:50,話者A+B:20,話者B+C:10,話者A+C:3,話者D:2,話者B+D:0,... ]のようになる。この出現回数のリストを出現回数順にソートしたものが結果リストであり,これを一つの中短区間映像音声に対する話者の検索結果候補とする。
【0048】
図6は,本実施の形態1における検索結果から結果リストを作成する例を示す図である。図中(a)は,各短区間映像音声に対する検索結果の例であり,各短区間の検索結果は話者名で記載されている。これらの検索結果を中短区間ごとに集計する。図6の例では,6つの短区間で一つの中短区間としている。検索結果を集計したものを出現回数ごとにソートしたものが結果リストである。図中(b)は,中短区間ごとの結果リストの例を示している。例えば,1番目の中短区間の結果リストでは,話者Aが出現する回数が3回,話者A+Bが2回,話者A+Cが1回という集計結果が示されている。
【0049】
なお,本実施の形態では,上記ステップS25〜S28を話者検索フェーズとしているが,この部分を下記の発話区間決定フェーズとして実行してもよく,全体の実質的な動作が変わるわけではない。
【0050】
〈発話区間決定フェーズ〉
図7は,本実施の形態1における発話区間決定フェーズの動作を説明するフローチャートである。本実施の形態1における〈発話区間決定フェーズ〉では,結果リストを下記に示す流れに従って処理することにより,複数話者の同時発話を含む映像音声から,特定の話者の発話区間を正確に割り出す。
【0051】
まず,検索結果処理部108は,一つの中短区間の結果リストを入力する(ステップS30)。入力した結果リストの上位n件以内に単独話者名があるかどうかを判断し(ステップS31),なければステップS38に進む。nは,あらかじめ設定された値である。
【0052】
ここで,例えば,n=5とし,ある結果リストが[話者A:50,話者A+B:20,話者B+C:10,話者A+C:3,話者D:2,話者B+D:0,……]となっている場合,「話者A」,「話者D」が上位5件以内に含まれている単独話者名であると判断する。
【0053】
結果リストの上位n件以内に単独話者名が一つでも含まれている場合,単独話者名のうち最も上位にある話者名をPa とし(ステップS32),Pa の単独の出現回数を総出現回数とする(ステップS33)。結果リストの上位n件以内にある複数話者の同時発話の結果でPa を含んでいるものがあれば(ステップS34),それらすべてのPa を含む複数話者の同時発話の出現回数をPa の単独の出現回数に加え,Pa の総出現回数とする(ステップS35)。
【0054】
ここで,上記の例のように,n=5とし,ある結果リストが[話者A:50,話者A+B:20,話者B+C:10,話者A+C:3,話者D:2,話者B+D:0,... ]となっている場合,最も上位にある単独話者名である「話者A」をPa とすると,複数話者の同時発話のうちPa を含むのは「話者A+B」,「話者A+C」である。Pa の単独の出現回数に,「話者A+B」,「話者A+C」の出現回数を加えたPa の総出現回数は,
50+20+3=73
となる。
【0055】
図8は,本実施の形態1における総出現回数の算出方法を説明する図である。図8の例の中短区間の結果リストにおいて,上位n=5以内の単独話者名には話者Aがあるので,話者AがPa となる。上位n=5以内の複数話者の同時発話のうち話者Aを含むものは,図8の例の場合,「話者A+B」,「話者A+C」,「話者A+D」である。話者Aの単独の出現回数に,「話者A+B」,「話者A+C」,「話者A+D」の出現回数を加えた話者Aの総出現回数は,
10+9+7+2=28
となる。
【0056】
中短区間におけるPa の総出現回数があらかじめ定められた閾値Tを超えた場合(ステップS36),そのPa をその中短区間映像音声の話者名であるとする(ステップS37)。
【0057】
ステップS30〜S37の処理を,すべての中短区間の結果リストについて実行する(ステップS38)。映像音声中のすべての中短区間映像音声の話者名と時間情報との組合せを,発話区間の話者情報として話者情報格納部109に格納する(ステップS39)。
【0058】
〈話者情報表示フェーズ〉
図9は,本実施の形態1における話者情報表示フェーズの動作を説明するフローチャートである。このフェーズでは,利用者からの要求に従って,端末表示装置20に話者情報を表示する。
【0059】
まず,表示部110は,利用者からの要求の入力を受ける(ステップS40)。利用者の入力が話者名か時間かを判定し(ステップS41),利用者の入力が話者名であれば,話者情報格納部109の話者情報をその話者名で検索し(ステップS42),その話者が発話したすべての中短区間の時間情報を視覚的に端末表示装置20に表示する(ステップS43)。ステップS41において利用者の入力が時間であれば,話者情報格納部109の話者情報をその時間で検索し(ステップS44),その時間に発話している話者の話者名を端末表示装置20に表示する(ステップS45)。
【0060】
図10は,上記ステップS43で表示される話者情報表示画面の例を示している。ここでは,画面左側に映像音声の再生画面とともに話者の名前が表示され,また,画面右側に人物の情報として話者の名前と,その話者が発話している時間帯の情報が表示されている。これによって,特定の話者がいつ発話しているかがすぐに分かる。
【0061】
また,図11は,上記ステップS45で表示される話者情報表示画面の例を示している。ここでは,画面左側に映像音声の再生画面とともにその再生画面の時刻が表示され,また,画面右側に人物の情報として指定された時間の話者に関する名前,所属等の話者情報が表示されている。これによって,ある時間にどのような人物が発話しているかがすぐに分かる。
【0062】
〔実施の形態2〕
図12は,本発明の実施の形態2における発話区間検索装置の構成例を示す図である。本実施の形態2における発話区間検索装置10’は,CPUおよびメモリ等からなるコンピュータであり,ソフトウェアプログラムおよび記憶装置等によって構成される入力部101,候補映像音声提示部102,登録用音声合成部103,特徴量抽出部104,特徴量格納部105,映像音声切り出し部106,検索部107,検索結果処理部108,話者情報格納部109,表示部110,映像音声再選択部111を備えている。また,本実施の形態2における発話区間検索装置10’には,端末表示装置20が接続されている。
【0063】
本実施の形態2は,映像音声再選択部111を有し,上記〈話者情報表示フェーズ〉で表示された話者情報をもとに,特徴量格納部105に格納されている登録話者音声の音声特徴量を再設定する機能を持つ点が,前述した実施の形態1と異なる。
【0064】
本実施の形態2における発話区間検索装置10’は,実施の形態1の動作の後に,〈話者音声再登録フェーズ〉の動作を行う。以下,発話区間検索装置10’における〈話者音声再登録フェーズ〉について,フローチャートを用いてその動作を説明する。
【0065】
〈話者音声再登録フェーズ〉
図13は,本実施の形態2における話者音声再登録フェーズの動作を説明するフローチャートである。本実施の形態2では,利用者が所望の話者の登録話者音声を,発話区間の検索結果を用いて修正することができる。例えば,実施の形態1の動作によって,所望の話者(話者Pa とする)の発話区間がT0 〜T1 およびT2 〜T3 であるという結果が得られたとする。しかし,利用者が実際に端末表示装置20で結果を確認すると,T0 〜T1 は所望の話者でなく,T2 〜T3 およびT4 〜T5 が正しい結果であり,これを登録話者音声として再登録したい場合に,利用者は,T2 〜T3 およびT4 〜T5 の映像音声から登録話者音声の再登録を行うことができる。
【0066】
まず,映像音声再選択部111は,話者Pa の登録話者音声として再登録したい映像音声の選択を利用者から受けると(ステップS50),その映像音声を話者Pa の登録話者音声として登録用音声合成部103に送る。登録用音声合成部103は,利用者が選択した話者Pa の登録話者音声と他の登録話者音声とから任意の組合わせについて音声を合成し,利用者が選択した登録話者音声を含む複数の登録話者音声が組み合わされた音声を生成する(ステップS51)。
【0067】
特徴量抽出部104は,利用者が選択した話者Pa の登録話者音声と,利用者が選択した登録話者音声を含む複数の登録話者音声が組み合わされた音声とからそれぞれ音声特徴量(特徴ベクトル)を抽出し(ステップS52),それらの抽出された音声特徴量で,特徴量格納部105にそれまでに格納されていた音声特徴量を上書きする(ステップS53)。
【0068】
以上のような一連の動作によって,利用者は,例えばT2 〜T3 の映像音声を新たに話者Pa の登録用話者音声として置き換え,さらに話者Pa を含む複数の登録話者音声の合成により生成された登録話者音声も新たに置き換えることができる。
【0069】
以上,本実施の形態1および2について説明したが,本発明では,もちろん検索対象の番組だけではなく,検索対象以外の番組からも登録話者音声を作成することができる。また,登録話者音声としてBGMを登録し,BGMの登録話者音声と他の登録話者音声との任意の組合せについて音声を合成し,それらの音声特徴量を登録することにより,発話区間の検索において,背景に効果音がある場合の発話区間の検索も行うことが可能になる。
【0070】
また,登録用音声合成部103において音声を合成する際に,各登録話者音声に音の大きさや音の高さなどについて任意に重みを設定してから,各登録話者音声を合成する実施も可能である。
【0071】
以上,番組映像における人間の発話区間について検索する例を説明したが,本発明が人間の音声以外の一般音声にも適用できることは言うまでもない。
【0072】
本発明の利用例として,以下のような例が考えられる。
(1)ストリーミング映像,ビデオ,テレビ番組などの映像音声から話者の発話区間を検出する場合に使用する。
(2)単一の集音マイクで録音された電話会議などから議事録を起こす作業の支援に使用する。番組などの音声は必ずしも登録音声だけが音声信号として放送されるわけではなく,実際には周囲環境音,雑音を含み多様である。このような場合に,本発明を用いた音声発生区間の検索は有効である。
(3)一般的な周囲環境音の中でクラクションが鳴らされた回数をカウントするのに使用する。クラクションの音声を単独で登録することは容易であるが,環境音声と混合した状態で正確に検出することは一般的には難しい。環境音にバリエーションがあることと,クラクションの音もドップラ効果などにより歪むからである。本発明を適用することにより,このような場合にも正確に検出することが可能になる。
(4)森の中で動物の鳴き声を判断するのに使用する。
(5)定常状態で動作する機械に,通常ではあり得ない音が発生したことを検出する場合に使用する。
【0073】
【発明の効果】
以上説明したように,本発明によって,テレビ番組などの複数の話者が同時に発話する音声や,背景に効果音を含む映像中において,利用者が提示された候補の中から所望の話者の単独音声を登録するだけで,複数話者の同時発話部分も含んだ映像中においても,所望の話者の発話区間検索を精度よく行うことができるようになる。また,利用者が,発話区間検索の結果を用いて登録話者音声を再作成することができる。また,人の音声に限らず,自然音についても音声発生源の認識,音声発生区間の検索に利用することができる。
【図面の簡単な説明】
【図1】本発明の概要を説明するための図である。
【図2】本発明に係る装置の構成図である。
【図3】本発明の実施の形態1における発話区間検索装置の構成例を示す図である。
【図4】本実施の形態1における話者音声登録フェーズの動作を説明するフローチャートである。
【図5】本実施の形態1における話者検索フェーズの動作を説明するフローチャートである。
【図6】本実施の形態1における検索結果から結果リストを作成する例を示す図である。
【図7】本実施の形態1における発話区間決定フェーズの動作を説明するフローチャートである。
【図8】本実施の形態1における総出現回数の算出方法を説明する図である。
【図9】本実施の形態1における話者情報表示フェーズの動作を説明するフローチャートである。
【図10】本実施の形態1における話者情報表示画面の例を示す図である。
【図11】本実施の形態1における話者情報表示画面の例を示す図である。
【図12】本発明の実施の形態2における発話区間検索装置の構成例を示す図である。
【図13】本実施の形態2における話者音声再登録フェーズの動作を説明するフローチャートである。
【符号の説明】
1   音声データベース
10,10’ 発話区間検索装置
11  話者情報登録手段
12  音声信号組合せ手段
13  音声特徴量抽出手段
14  特徴量格納手段
15  話者検索手段
16  話者検索結果処理手段
17  発話区間情報表示手段
101 入力部
102 候補映像音声提示部
103 登録用音声合成部
104 特徴量抽出部
105 特徴量格納部
106 映像音声切り出し部
107 検索部
108 検索結果処理部
109 話者情報格納部
110 表示部
111 映像音声再選択部
20  端末表示装置
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to technology for voice database registration, voice source recognition, and voice generation section search used for speaker recognition and the like. In particular, the present invention relates to, for example, shooting and recording of a broadcast program (hereinafter referred to as video / audio). On the other hand, the speaker information in the video and audio, together with the time information from the start of recording, is automatically recorded on a recording medium, and based on the recorded speaker information, the utterance of the specific speaker in the video The present invention relates to a technique used for searching for a specified time zone.
[0002]
[Prior art]
When searching for an utterance section of a specific speaker in video and audio (hereinafter referred to as an utterance section search), generally speaking, the speech of the speaker to be searched is pre-registered in the judgment of the speaker (hereinafter, the registered speaker voice). (For example, see Non-Patent Document 1).
[0003]
Normally, a registered speaker's voice uses a voice independently uttered by a desired speaker (hereinafter, referred to as a single speaker's voice) for about 30 to 120 seconds, and then creates a codebook. At the time of utterance section search, this codebook is used, and a speech section of a desired speaker is detected by processing such as successively extracting audio feature amounts from the beginning of the program and comparing the feature with the codebook. Thus, for example, the time when speaker A speaks is counted from the start of the program as T 0 Seconds to T 1 Until the second, speaker B speaks for T 2 Seconds to T 3 You can get results like up to seconds.
[0004]
Generally, in a television program or the like, there are speakers who speak simultaneously, and the number of speakers is not necessarily one. 0 <T 2 <T 1 <T 3 It may be. At this time, T 2 ~ T 1 In the section, a plurality of speakers (in this case, speaker A and speaker B) are uttering at the same time, and it is difficult to correctly search this portion using a codebook created from a single speaker's voice. is the current situation.
[0005]
For example, in the case (T 0 <T 2 <T 1 <T 3 ), The talk time of speaker A is T 0 ~ T 1 T 2 ~ T 1 Cannot be detected accurately, and the result of the utterance section search indicates that the utterance section of speaker A is T 0 ~ T 2 (T 2 <T 1 ) May be detected. Also, when music is inserted at the same time as the conversation of the speaker A, the utterance section of the speaker A may be erroneously detected.
[0006]
Furthermore, since the utterance is not only a sound part (there is a break in the sentence), the characteristics of the silent part are reflected in the codebook. For this reason, only the distance between the vectors in minute time units is used. Judging the speaker may cause an error.
[0007]
For example, it is assumed that the feature vector of a certain section is closest to one of the feature vectors in the speaker B's codebook. However, the speaker in this section is actually A, and the vector that happened to be the search key is a feature vector that reflects the features of some silent sections registered when the codebook of speaker B was created. This is the case where the distance to was the shortest. In such a case, simply performing a database search using a feature vector of video and audio at a certain time as a key is not sufficient.
[0008]
As described above, when searching for a speaker's utterance section based on the conventional method for video and audio such as a general TV program having many variations, generally, the accuracy thereof is significantly reduced.
[0009]
[Non-patent document 1]
F. K. See Song et al. , "A vector quantification approach to speaker recognition," Proc. ICASSP, pp. 387-390
[0010]
[Problems to be solved by the invention]
As described above, according to the conventional method of creating a codebook from only a single speaker's voice, a speech section of a desired speaker can be accurately extracted from general video and audio including a portion where a plurality of speakers simultaneously speak. Hard to get. It is also conceivable to manually search for a part where multiple speakers simultaneously utter from a long video and use that as the registered speaker's voice. However, this method is extremely inefficient and cannot be put to practical use. Have difficulty.
[0011]
SUMMARY OF THE INVENTION It is an object of the present invention to solve such a problem and to enable accurate speaker search even when there is a part where a plurality of speakers utter simultaneously in video and audio.
[0012]
[Means for Solving the Problems]
The present invention can be used not only for human utterances but also for the sounds of animals such as birds and insects, the recognition of sound sources for machine sounds, and the search of sound generation sections. The following describes an example of speaker recognition and retrieval of a speaker's utterance section.
[0013]
FIG. 1 is a diagram for explaining the outline of the present invention.
[0014]
Normally, when registering the feature amount of a speech signal as learning data, it is common to individually store the features of speech A and B of each speaker in the speech database 1 as shown in FIG. is there. In the search stage, calculations are performed to determine how similar the input voice is to A and B, and how the input voice changes over time, and finally determine which of the registered voices the input voice matches.
[0015]
However, in the case where speech A and speech B are mixed in the input speech to be searched, there is no appropriate learning data in the speech database 1, and it is difficult to obtain a search result successfully. When a voice such as A + B in which voices A and B are mixed is input, usually, a search result for the input voice is processed temporally and stochastically to determine whether it is A or B or not. Therefore, accurate search cannot be performed. On the other hand, it is time-consuming and sometimes impossible to record a mixture of voice A and voice B as learning data in advance.
[0016]
Therefore, in the present invention, as shown in FIG. 1B, learning speech signals prepared in advance are added in an arbitrary combination, and the features are recursively registered in the speech database 1. That is, in addition to registering the features of the voice A and the voice B in the voice database 1, a voice A + B is temporarily created virtually, and the features are also registered in the voice database 1. This makes it possible to search for voice A and voice B even when voice A and voice B are mixed.
[0017]
FIG. 2 shows a configuration diagram of the apparatus according to the present invention. The utterance section search device 10 includes a speaker information registration unit 11, a voice signal combination unit 12, a voice feature extraction unit 13, a feature storage unit 14, a speaker search unit 15, and a speaker search result processing unit. 16 and utterance section information display means 17.
[0018]
Here, a video such as a television program is called video and audio, one of the video and audio divided in time series at an arbitrary time is called a short section video and audio, and a short section video and audio continuous in time series is called One of the plurality of groups is called a medium / short section video / audio.
[0019]
The speaker information registration unit 11 cuts out an arbitrary portion from the video and audio, and presents it to the user as a candidate for registered speaker's voice. For example, a plurality of unspecified speaker voices are automatically cut out from a program for a certain period of time and presented to the user. The user determines which of the presented candidates is to be used as the registered speaker's voice, and adds additional information such as the speaker's name for those determined to be used.
[0020]
The voice signal combination means 12 creates a sum of voice signals of a plurality of single speaker voices selected by the user as registered speaker voices in an arbitrary combination, and adds it to the registered speaker voices. That is, a voice in which a plurality of speakers are simultaneously speaking or a voice in which music is flowing in the background of the voice are virtually generated and added to the registered speaker's voice.
[0021]
The voice feature extraction unit 13 individually extracts voice features from all registered speaker voices. In the extraction of the audio feature amount, a general signal processing method represented by a linear prediction method or the like from the audio signal can be used.
[0022]
The feature storage unit 14 stores the speaker's speech feature extracted by the speech feature extraction unit 13 in the speech database 1 together with speaker information such as a speaker name.
[0023]
The speaker search means 15 inputs the video / audio to be searched for the utterance section search, divides the video / audio into short sections, and stores the audio feature amount extracted from each short section video / audio and the voice database 1. The obtained speech features are compared in time order, their similarities are calculated, and the result with the highest similarity is returned.
[0024]
The speaker search result processing means 16 sums up the speaker search results of the short-term video and audio obtained by the above similarity calculation for each of a plurality of time-sequential series, and lists the number of appearances for each search result name. Output In other words, the results obtained by the speaker search means 15 over the entire time domain of the video and audio are totaled for each of the medium and short section video and audio, and the utterance section of the desired speaker is determined based on the number of appearances.
[0025]
Based on the output, the utterance section information display means 17 displays time zone information in which the desired speaker has uttered on the terminal screen together with the time from the beginning of the program. Alternatively, the speaker information at a specified time is displayed on the terminal screen together with the video at the time.
[0026]
The operation of the utterance section search device 10 shown in FIG. 2 is as follows. In the speaker voice registration phase, the voice of the speaker input by the speaker information registration unit 11 is arbitrarily combined by the voice signal combination unit 12, and the speech feature amount is extracted from both the combined voice and the voice before being combined. The feature data is extracted by the means 13 and stored in the voice database 1 by the feature data storage means 14. Next, in the speaker search phase, a feature is extracted from the audio and video to be searched by the voice feature extraction unit 13 and the extracted feature is used as a search key by the speaker search unit 15 based on the similarity. Perform a search. Next, in the utterance section determination phase, the speaker search result processing means 16 determines an utterance section of a desired speaker from the obtained search results based on the number of times obtained as search results. In the speaker information display phase, the utterance section information display means 17 displays on the terminal screen together with additional speaker information registered in advance.
[0027]
According to the above-described means, in the present invention, the user automatically selects several independent speaker voices presented by the utterance section search device 10 in advance and sets them as registered speaker voices. Simultaneous utterance voices and utterance voices of the music insertion part are created, and these are added as registered speaker voices.
[0028]
In addition, when the user selects the registered speaker's voice, the user's name and other additional information can be input, and the information input by the user and the registered speaker's voice are automatically associated. Further, the utterance section search device 10 of the present invention automatically calculates the speech feature amount over the entire section of the program, and calculates the similarity with the speech feature amount of the registered speaker's speech stored in advance. It is determined that the voice that is equal to or greater than the threshold is the voice of the registered speaker. Also, speaker search results for short section video and audio obtained over the entire program time are totaled for each medium and short section, and a speech section of a desired speaker is determined.
[0029]
The speaker information registration unit 11, the speech signal combination unit 12, the speech feature amount extraction unit 13, and the feature amount storage unit 14 shown in FIG. 2 can constitute a speech database registration processing device according to the present invention. .
[0030]
The speaker information registering means 11, voice signal combining means 12, voice feature quantity extracting means 13, feature quantity storing means 14, and speaker searching means 15 shown in FIG. A source recognition device can be configured.
[0031]
Each of the above means can be realized by a computer including a CPU and a memory and a software program, and the program is stored in an appropriate recording medium such as a computer-readable portable medium memory, a semiconductor memory, and a hard disk. can do.
[0032]
The differences between the present invention and the prior art are as follows. In the conventional speaker recognition technology, when registering voice information in a database, usually, a voice to be searched (human voice, mechanical voice, etc.) is independently registered, and it is determined whether or not the input voice matches the voice. Was. On the other hand, according to the present invention, not only a voice is registered alone, but also a plurality of voices are synthesized with an arbitrary weight at a signal level, and the feature amount is recursively registered in a database. This is a point different from the prior art.
[0033]
In addition, when searching for a speech generation section, in the related art, likelihood is generally obtained by counting the similarity of search results, but in the present invention, search results arranged as candidates are counted for a certain period of time and frequently appear. To extract the results. By making a determination based on the number of appearances in this way, it is possible to correctly search for a target voice generation section even when ambient environmental sounds and the like are mixed irregularly.
[0034]
BEST MODE FOR CARRYING OUT THE INVENTION
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0035]
[Embodiment 1]
FIG. 3 is a diagram showing a configuration example of the utterance section search device according to the first embodiment of the present invention. The utterance section search device 10 according to the first embodiment is a computer including a CPU, a memory, and the like. , A feature amount extraction unit 104, a feature amount storage unit 105, a video / audio extraction unit 106, a search unit 107, a search result processing unit 108, a speaker information storage unit 109, and a display unit 110. Further, a terminal display device 20 is connected to the utterance section search device 10 according to the first embodiment.
[0036]
The operation of the utterance section search device 10 can be divided into a <speaker voice registration phase>, a <speaker search phase>, a <speaker section determination phase>, and a <speaker information display phase>. Hereinafter, the operation of each phase of the utterance section search device 10 will be described using a flowchart.
[0037]
<Speaker voice registration phase>
FIG. 4 is a flowchart illustrating the operation of the speaker voice registration phase according to the first embodiment. First, the input unit 101 inputs video and audio to be searched (step S10), and the candidate video and audio presentation unit 102 cuts out an arbitrary portion from the input video and audio, and extracts this from the registered speaker voice candidate. (Hereinafter referred to as a registration candidate speaker image) to the user (step S11).
[0038]
Here, the candidate video / audio presentation unit 102 detects, for example, a part that is a human voice and one person continuously speaks for a certain period of time (20 to 60 seconds) from a broadcast program by a general method. , Are presented to the user as candidate speaker images for registration.
[0039]
When the registered speaker candidate video is presented, the user views each of the presented registered speaker candidate videos, and determines whether or not to adopt the registered speaker candidate video as the registered speaker voice. The candidate video / audio presentation unit 102 receives a selection of a registration speaker candidate video (registered speaker voice) from the user (step S12), and receives information (hereinafter, referred to as a speaker name) related to the registered speaker from the user. (Referred to as registered speaker information) (step S13), and the registered speaker information and the registered speaker voice are temporarily recorded (step S14). Steps S12 to S14 (or S11 to S14) are repeated by the number of speakers that need to be detected in accordance with a user's instruction (step S15).
[0040]
In the above process, for example, when the user adopts one of the presented registration speaker change videos as the voice of the person A, the registration speaker change video presented on the terminal screen is used. Select the registered speaker voice and enter "Speaker A" in the text box provided below the selected registration speaker video, so that the selected registration speaker video and the And the registered speaker information “person A”. In addition to inputting a speaker name as registered speaker information, information such as gender, age, occupation, and affiliated company can be additionally input. The user performs the above operation for the number of persons who need to be detected.
[0041]
When a plurality of registered speaker voices are selected, the registration voice synthesis unit 103 synthesizes voices for an arbitrary combination from the selected plurality of registered speaker voices to generate a plurality of registered speaker voices. A voice combined with the speaker voice is generated (step S16) and added to the registered speaker voice selected by the candidate video / audio presentation unit 102.
[0042]
Here, for example, a voice in which two speakers are uttering at the same time, a voice in which utterance is performed with music or sound effects in the background, and the like are created, and these are added to the registered speaker's voice. More specifically, when the user selects the voices of the speakers A and B as the registered speaker's voices, the voice for the speaker A + B is automatically generated by the voice synthesizer 103 for registration, and the voice of the speaker A is generated. , Speaker B, and speaker A + B are registered speaker voices.
[0043]
The feature amount extraction unit 104 extracts a speech feature amount from all the registered speaker's voices according to a general feature amount represented by a linear prediction method or the like from the voice signal (step S17), and extracts those voices. The feature amount is recorded as a feature vector in the audio database 1 of the feature amount storage unit 105 (step S18).
[0044]
<Speaker search phase>
FIG. 5 is a flowchart illustrating the operation of the speaker search phase according to the first embodiment. First, a video (video / audio) of a program to be searched is input by the input unit 101, and the video / audio cutout unit 106 cuts out the short-term video / audio by dividing the input video / audio every short time (step S20). The feature amount extraction unit 104 extracts a sound feature amount (feature vector) from the cut out short-term video and audio (step S21). The length of the short section is a predetermined length of, for example, about 10 ms to 100 ms, but the embodiment of the present invention is not limited to this length.
[0045]
The search unit 107 determines the similarity between the feature vector of the short-term video and audio extracted in step S21 and the feature vectors of all registered speaker voices stored in the feature amount storage unit 105 in the <speaker voice registration phase>. Calculation is performed (step S22), and the registered speaker information of the registered speaker voice having the highest similarity is set as a search result (step S23). The processes of steps S20 to S23 are repeatedly executed from the program start time to the program end time (step S24), and a search result is obtained for all short-section video and audio.
[0046]
Next, the search results of each short section video / audio are grouped into a plurality of continuous time series (for example, 100 pieces) (hereinafter, this unit is referred to as a medium / short section), and the search results are totaled for each medium / short section. (Step S25), and sorts the totaled result in the order of the number of appearances to generate a result list (Step S26). The result list is output as a search result of the registered speaker's voice for one medium / short section video / audio (step S27). The processing of steps S25 to S27 is repeatedly performed on all the short-term video / audio search results (step S28).
[0047]
Here, assuming that the medium / short section video / audio is a set of, for example, 100 short section video / audio, the breakdown of the 100 search results in the medium / short section is in the form of “speaker name: number of appearances”. For example, [Speaker A: 50, Speaker A + B: 20, Speaker B + C: 10, Speaker A + C: 3, Speaker D: 2, Speaker B + D: 0,. . . ]become that way. This list of the number of appearances is sorted in the order of the number of appearances, and is a result list, which is used as a search result candidate of a speaker for one medium / short section video / audio.
[0048]
FIG. 6 is a diagram illustrating an example of creating a result list from search results according to the first embodiment. (A) in the figure is an example of a search result for each short section video and audio, and the search result for each short section is described by a speaker name. These search results are totaled for each medium and short section. In the example of FIG. 6, six short sections constitute one medium short section. The result list is obtained by summarizing the search results and sorting them by the number of appearances. (B) in the figure shows an example of a result list for each middle and short section. For example, in the result list of the first middle / short section, the total number of times that speaker A appears three times, speaker A + B twice, and speaker A + C once is shown.
[0049]
In the present embodiment, steps S25 to S28 are defined as the speaker search phase. However, this part may be executed as the following utterance section determination phase, and the overall operation does not change.
[0050]
<Speech interval decision phase>
FIG. 7 is a flowchart illustrating the operation of the utterance section determination phase according to the first embodiment. In the <utterance interval determination phase> according to the first embodiment, the utterance interval of a specific speaker is accurately determined from video and audio including simultaneous utterances of a plurality of speakers by processing the result list according to the following flow. .
[0051]
First, the search result processing unit 108 inputs a result list of one medium / short section (step S30). It is determined whether there is a single speaker name within the top n items in the input result list (step S31), and if not, the process proceeds to step S38. n is a preset value.
[0052]
Here, for example, n = 5, and a certain result list is [Speaker A: 50, Speaker A + B: 20, Speaker B + C: 10, Speaker A + C: 3, Speaker D: 2, Speaker B + D: 0] ,...], It is determined that “speaker A” and “speaker D” are single speaker names included in the top five cases.
[0053]
If at least one single speaker name is included in the top n items in the result list, the highest speaker name among the single speaker names is set to P. a (Step S32), P a Is set as the total number of appearances (step S33). P is the result of simultaneous utterances of multiple speakers within the top n items in the result list. a (Step S34), if all the P a Is the number of simultaneous utterances of multiple speakers including a In addition to the single occurrence of a Is set as the total number of appearances (step S35).
[0054]
Here, as in the above example, n = 5, and a certain result list is [Speaker A: 50, Speaker A + B: 20, Speaker B + C: 10, Speaker A + C: 3, Speaker D: 2, Speaker B + D: 0,. . . ], The name of the highest speaker, “Speaker A”, is a Then, among simultaneous utterances of multiple speakers, P a Are "speaker A + B" and "speaker A + C". P a Is the sum of the number of appearances of "Speaker A + B" and the number of appearances of "Speaker A + C" a Is the total number of occurrences of
50 + 20 + 3 = 73
It becomes.
[0055]
FIG. 8 is a diagram illustrating a method of calculating the total number of appearances according to the first embodiment. In the result list of the middle / short section in the example of FIG. 8, since a single speaker name within the upper n = 5 includes the speaker A, the speaker A a It becomes. Among the simultaneous utterances of a plurality of speakers within the upper n = 5, those including speaker A are “speaker A + B”, “speaker A + C”, and “speaker A + D” in the example of FIG. The total number of appearances of speaker A, which is the sum of the number of appearances of speaker A alone and the number of appearances of “speaker A + B”, “speaker A + C”, and “speaker A + D”, is
10 + 9 + 7 + 2 = 28
It becomes.
[0056]
P in medium and short section a If the total number of appearances exceeds a predetermined threshold T (step S36), the P a Is the speaker name of the medium / short section video / audio (step S37).
[0057]
The processing of steps S30 to S37 is executed for all the result lists of the middle and short sections (step S38). The combinations of the speaker names and the time information of all of the short and medium section video and audio in the video and audio are stored in the speaker information storage unit 109 as the speaker information of the utterance section (step S39).
[0058]
<Speaker information display phase>
FIG. 9 is a flowchart illustrating the operation of the speaker information display phase according to the first embodiment. In this phase, speaker information is displayed on the terminal display device 20 in accordance with a request from the user.
[0059]
First, the display unit 110 receives an input of a request from a user (step S40). It is determined whether the input of the user is the speaker name or the time (step S41). If the input of the user is the speaker name, the speaker information in the speaker information storage unit 109 is searched by the speaker name ( (Step S42), the time information of all the medium and short sections uttered by the speaker is visually displayed on the terminal display device 20 (Step S43). If the input of the user is time in step S41, the speaker information in the speaker information storage unit 109 is searched by that time (step S44), and the speaker name of the speaker speaking at that time is displayed on the terminal. It is displayed on the device 20 (step S45).
[0060]
FIG. 10 shows an example of the speaker information display screen displayed in step S43. Here, the name of the speaker is displayed on the left side of the screen along with the video / audio playback screen, and the right side of the screen is the name of the speaker as information on the person and information on the time period during which the speaker is speaking. ing. This makes it easy to see when a particular speaker is speaking.
[0061]
FIG. 11 shows an example of the speaker information display screen displayed in step S45. Here, the time of the playback screen is displayed together with the video / audio playback screen on the left side of the screen, and the speaker information such as the name and affiliation of the speaker at the time designated as the person information is displayed on the right side of the screen. I have. This makes it easy to see who is speaking at a given time.
[0062]
[Embodiment 2]
FIG. 12 is a diagram showing a configuration example of an utterance section search device according to Embodiment 2 of the present invention. The utterance section search device 10 'according to the second embodiment is a computer including a CPU, a memory, and the like, and includes an input unit 101, a candidate video / audio presentation unit 102, and a registration voice synthesis unit, each of which includes a software program and a storage device. 103, a feature amount extraction unit 104, a feature amount storage unit 105, a video / audio cutout unit 106, a search unit 107, a search result processing unit 108, a speaker information storage unit 109, a display unit 110, and a video / audio reselection unit 111. I have. Further, a terminal display device 20 is connected to the utterance section search device 10 'according to the second embodiment.
[0063]
The second embodiment has a video / audio reselection unit 111, and based on the speaker information displayed in the <speaker information display phase>, the registered speaker stored in the feature amount storage unit 105. This embodiment differs from the first embodiment in that it has a function of resetting the audio feature amount of the audio.
[0064]
The utterance section search device 10 'according to the second embodiment performs the operation of the <speaker voice re-registration phase> after the operation of the first embodiment. Hereinafter, the operation of the <speaker voice re-registration phase> in the utterance section search device 10 'will be described with reference to a flowchart.
[0065]
<Speaker voice re-registration phase>
FIG. 13 is a flowchart for explaining the operation of the speaker voice re-registration phase in the second embodiment. In the second embodiment, the user can correct the registered speaker's voice of the desired speaker using the search result of the utterance section. For example, the desired speaker (speaker P a Utterance section is T 0 ~ T 1 And T 2 ~ T 3 Is obtained. However, when the user actually confirms the result on the terminal display device 20, T 0 ~ T 1 Is not the desired speaker and T 2 ~ T 3 And T 4 ~ T 5 Is the correct result, and if you want to re-register this as a registered speaker's voice, 2 ~ T 3 And T 4 ~ T 5 , The registered speaker's voice can be re-registered.
[0066]
First, the video / audio reselection unit 111 sets the speaker P a When the user selects a video / audio to be re-registered as a registered speaker's voice (step S50), the video / audio is a Is transmitted to the registration speech synthesis unit 103 as the registered speaker's speech. The registration voice synthesis unit 103 uses the speaker P selected by the user. a A voice is synthesized from an arbitrary combination of the registered speaker's voice and another registered speaker's voice, and a voice is generated by combining a plurality of registered speaker's voices including the registered speaker's voice selected by the user ( Step S51).
[0067]
The feature amount extraction unit 104 selects the speaker P selected by the user. a Of the registered speaker's voice and a voice obtained by combining a plurality of registered speaker's voices including the registered speaker's voice selected by the user (step S52). The voice feature amount stored up to that point in the feature amount storage unit 105 is overwritten with the obtained voice feature amount (step S53).
[0068]
By the above series of operations, the user can, for example, 2 ~ T 3 Video and audio of speaker P a As the registration speaker's voice, and the speaker P a The registered speaker's voice generated by synthesizing a plurality of registered speaker's voices including the above can also be newly replaced.
[0069]
Although Embodiments 1 and 2 have been described above, in the present invention, the registered speaker's voice can be created not only from the program to be searched but also from a program other than the program to be searched. Also, BGM is registered as a registered speaker's voice, a voice is synthesized for an arbitrary combination of the registered speaker's voice of BGM and another registered speaker's voice, and their voice feature amounts are registered, whereby the speech section of the utterance section is registered. In the search, it is also possible to search for an utterance section when there is a sound effect in the background.
[0070]
In addition, when synthesizing the speech in the registration speech synthesis unit 103, the weight of the loudness and the pitch of each registered speaker voice is arbitrarily set, and then each registered speaker voice is synthesized. Is also possible.
[0071]
The example of searching for a human speech section in a program video has been described above, but it goes without saying that the present invention can be applied to general voices other than human voices.
[0072]
The following examples can be considered as application examples of the present invention.
(1) Used to detect a speaker's utterance section from video / audio such as streaming video, video, and television programs.
(2) It is used to support the work of generating the minutes from a conference call or the like recorded with a single sound collecting microphone. The sound of a program or the like is not always the registered sound that is broadcasted as an audio signal. In such a case, the search of the sound generation section using the present invention is effective.
(3) Used to count the number of times a horn is sounded in general ambient sound. Although it is easy to register horn sound alone, it is generally difficult to accurately detect horn sound mixed with environmental sound. This is because there are variations in the environmental sound, and the sound of the horn is also distorted due to the Doppler effect. By applying the present invention, it is possible to accurately detect even such a case.
(4) Used to judge the animal's cry in the forest.
(5) Used to detect the occurrence of unusual sound in a machine operating in a steady state.
[0073]
【The invention's effect】
As described above, according to the present invention, in a voice such as a television program or the like in which a plurality of speakers simultaneously utter or a video including a sound effect in the background, a user can select a desired speaker from among presented candidates. By simply registering a single voice, it is possible to accurately search for a utterance section of a desired speaker even in a video including portions of simultaneous utterances of a plurality of speakers. Further, the user can re-create the registered speaker's voice using the result of the utterance section search. Not only human voices but also natural sounds can be used for recognizing voice sources and searching for voice generation sections.
[Brief description of the drawings]
FIG. 1 is a diagram for explaining an outline of the present invention.
FIG. 2 is a configuration diagram of an apparatus according to the present invention.
FIG. 3 is a diagram illustrating a configuration example of an utterance section search device according to the first embodiment of the present invention.
FIG. 4 is a flowchart illustrating an operation of a speaker voice registration phase according to the first embodiment.
FIG. 5 is a flowchart illustrating an operation in a speaker search phase according to the first embodiment.
FIG. 6 is a diagram showing an example of creating a result list from search results according to the first embodiment.
FIG. 7 is a flowchart illustrating an operation of an utterance section determination phase according to the first embodiment.
FIG. 8 is a diagram illustrating a method of calculating the total number of appearances according to the first embodiment.
FIG. 9 is a flowchart illustrating an operation of a speaker information display phase according to the first embodiment.
FIG. 10 is a diagram showing an example of a speaker information display screen according to the first embodiment.
FIG. 11 is a diagram showing an example of a speaker information display screen according to the first embodiment.
FIG. 12 is a diagram showing a configuration example of an utterance section search device according to a second embodiment of the present invention.
FIG. 13 is a flowchart illustrating an operation of a speaker voice re-registration phase according to the second embodiment.
[Explanation of symbols]
1 audio database
10,10 'utterance section search device
11 Speaker information registration means
12 Voice signal combination means
13 Voice feature extraction means
14 Feature storage means
15 Speaker search means
16 Speaker search result processing means
17 Utterance section information display means
101 Input unit
102 Candidate video / audio presentation unit
103 Registration voice synthesis unit
104 Feature Extraction Unit
105 Feature storage
106 Video / Audio Extraction Unit
107 Search unit
108 Search result processing unit
109 Speaker information storage
110 Display
111 Video / Audio Reselection Unit
20 Terminal display device

Claims (16)

音声発生源情報とその音声発生源が発する音声の特徴量とを格納し,音声発生源が未知の音声信号について音声発生源を認識するための音声データベースへの学習データの登録処理方法において,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する
ことを特徴とする音声データベース登録処理方法。
In a method of registering learning data in a speech database for storing speech source information and features of speech generated by the speech source and recognizing the speech source for an unknown speech signal,
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. A voice database registration processing method, wherein information corresponding to the above is registered in the voice database.
あらかじめ音声データベースに登録された音声発生源の音声特徴量との照合により,音声発生源が未知の音声信号から音声発生源を認識する音声発生源認識方法において,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する音声データベース登録段階と,
音声発生源が未知の音声信号を入力し,入力した音声信号から音声特徴量を抽出し,前記音声データベースに登録された音声発生源の音声特徴量との照合により,複数の音声発生源を含むことがある音声発生源を認識する音声発生源検索段階とを有する
ことを特徴とする音声発生源認識方法。
A speech source recognition method for recognizing a speech source from an unknown speech signal by collating with a speech feature amount of a speech source registered in a speech database in advance.
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. Registering correspondence information with the voice database in the voice database;
A speech source inputs an unknown speech signal, extracts speech features from the input speech signal, and includes a plurality of speech sources by collating with the speech features of the speech sources registered in the speech database. A voice source searching step of recognizing a voice source which may occur.
音声信号中の特定の音声発生源が発する音声発生区間を検索する音声発生区間検索方法において,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する音声データベース登録段階と,
音声発生区間の検索の対象となる音声信号を入力し,入力した音声信号を所定の時間単位ごとに区切って,各区間から音声特徴量を抽出し,前記音声データベースに登録された音声発生源の音声特徴量との照合により,複数の音声発生源を含むことがある音声発生源を認識する音声発生源検索段階と,
前記音声発生源検索段階によって得られた各区間の音声発生源の検索結果を,あらかじめ定められた複数の区間ごとに集計し,音声発生源の出現回数をもとに特定の音声発生源の音声発生区間を割り出す音声発生源検索結果処理段階と,
前記音声発生源検索結果処理段階によって得られた音声発生区間情報を出力する音声発生区間情報出力段階とを有する
ことを特徴とする音声発生区間検索方法。
In a voice generation section search method for searching for a voice generation section generated by a specific voice source in a voice signal,
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. Registering correspondence information with the voice database in the voice database;
A voice signal to be searched for a voice generation section is input, the input voice signal is divided into predetermined time units, voice features are extracted from each section, and a voice generation source registered in the voice database is extracted. A sound source search step for recognizing a sound source that may include a plurality of sound sources by comparing with a sound feature amount;
The search result of the sound source in each section obtained in the sound source search step is totaled for each of a plurality of predetermined sections, and the sound of the specific sound source is calculated based on the number of appearances of the sound source. A speech source search result processing stage for determining a generation section;
Outputting a voice generation section information obtained in the voice generation source search result processing step.
請求項3記載の音声発生区間検索方法において,
前記音声発生区間情報出力段階では,指定された音声発生源が音声を発生した音声信号のすべての時間帯情報を表示,または指定された音声信号の時間に発生している音声発生源情報を表示する
ことを特徴とする音声発生区間検索方法。
4. The method according to claim 3, wherein
In the voice generation section information output step, the specified voice generation source displays all time zone information of the voice signal generating the voice, or displays the voice generation source information generated at the time of the specified voice signal. A voice generating section search method.
請求項3または請求項4記載の音声発生区間検索方法において,
前記音声発生区間情報出力段階で利用者に提示された特定の音声発生源情報とその音声信号とをもとに,利用者の指定により前記音声データベースへの音声発生源情報および音声特徴量を再登録する音声データベース再登録段階を有する
ことを特徴とする音声発生区間検索方法。
In the voice generating section search method according to claim 3 or 4,
Based on the specific voice source information presented to the user in the voice generating section information output step and the voice signal thereof, the voice source information and voice feature amounts to the voice database are re-designated by the user. A method for retrieving a speech generation section, comprising a step of re-registering a speech database to be registered.
音声発生源情報とその音声発生源が発する音声の特徴量とを格納し,音声発生源が未知の音声信号について音声発生源を認識するための音声データベースへの学習データの登録処理装置において,
認識対象となる各音声発生源が発する音声信号を入力する手段と,
入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成する手段と,
前記入力した音声信号および前記合成した音声信号のそれぞれについて音声特徴量を抽出する手段と,
各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する手段とを備える
ことを特徴とする音声データベース登録処理装置。
In the processing unit for registering learning data in a speech database for storing speech source information and feature amounts of speech generated by the speech source and recognizing the speech source for an unknown speech signal,
Means for inputting a speech signal emitted by each speech source to be recognized;
Means for synthesizing audio signals from a plurality of audio sources by combining the input audio signals from the plurality of audio sources;
Means for extracting an audio feature value for each of the input audio signal and the synthesized audio signal;
Means for registering, in the audio database, correspondence information between each of the audio source information and the audio feature amounts and information on the combination of the plurality of combined audio source information and the audio feature amounts. Database registration processor.
あらかじめ音声データベースに登録された音声発生源の音声特徴量との照合により,音声発生源が未知の音声信号から音声発生源を認識する音声発生源認識装置において,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する音声データベース登録手段と,
音声発生源が未知の音声信号を入力し,入力した音声信号から音声特徴量を抽出し,前記音声データベースに登録された音声発生源の音声特徴量との照合により,複数の音声発生源を含むことがある音声発生源を認識する音声発生源検索手段とを備える
ことを特徴とする音声発生源認識装置。
A speech source recognition device that recognizes a speech source from an unknown speech signal by collating with a speech feature of the speech source registered in advance in a speech database.
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. Voice database registration means for registering the correspondence information with the voice database;
A speech source inputs an unknown speech signal, extracts speech features from the input speech signal, and includes a plurality of speech sources by collating with the speech features of the speech sources registered in the speech database. And a voice source search unit for recognizing a voice source.
音声信号中の特定の音声発生源が発する音声発生区間を検索する音声発生区間検索装置において,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する音声データベース登録手段と,
音声発生区間の検索の対象となる音声信号を入力し,入力した音声信号を所定の時間単位ごとに区切って,各区間から音声特徴量を抽出し,前記音声データベースに登録された音声発生源の音声特徴量との照合により,複数の音声発生源を含むことがある音声発生源を認識する音声発生源検索手段と,
前記音声発生源検索手段によって得られた各区間の音声発生源の検索結果を,あらかじめ定められた複数の区間ごとに集計し,音声発生源の出現回数をもとに特定の音声発生源の音声発生区間を割り出す音声発生源検索結果処理手段と,
前記音声発生源検索結果処理手段によって得られた音声発生区間情報を出力する音声発生区間情報出力手段とを備える
ことを特徴とする音声発生区間検索装置。
In a voice generation section search device that searches for a voice generation section generated by a specific voice generation source in a voice signal,
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. Voice database registration means for registering the correspondence information with the voice database;
A voice signal to be searched for a voice generation section is input, the input voice signal is divided into predetermined time units, voice features are extracted from each section, and a voice generation source registered in the voice database is extracted. A sound source search means for recognizing a sound source that may include a plurality of sound sources by comparing with a sound feature amount;
The search results of the sound source in each section obtained by the sound source search means are totaled for each of a plurality of predetermined sections, and the sound of the specific sound source is calculated based on the number of appearances of the sound source. Voice source search result processing means for determining a generation section;
A voice generation section information output means for outputting voice generation section information obtained by the voice generation source search result processing means.
請求項8記載の音声発生区間検索装置において,
前記音声発生区間情報出力手段は,指定された音声発生源が音声を発生した音声信号のすべての時間帯情報を表示,または指定された音声信号の時間に発生している音声発生源情報を表示する手段である
ことを特徴とする音声発生区間検索装置。
9. The apparatus according to claim 8, wherein:
The voice generation section information output means displays all time zone information of a voice signal in which a specified voice source generates voice, or displays voice source information generated at a time of a specified voice signal. A voice generating section search device.
請求項8または請求項9記載の音声発生区間検索装置において,
前記音声発生区間情報出力手段で利用者に提示された特定の音声発生源情報とその音声信号とをもとに,利用者の指定により前記音声データベースへの音声発生源情報および音声特徴量を再登録する音声データベース再登録手段を備える
ことを特徴とする音声発生区間検索装置。
The voice generating section search device according to claim 8 or 9,
Based on the specific sound source information presented to the user by the sound generating section information output means and the sound signal, the sound source information and the sound feature amount in the sound database are re-designated by the user. A voice generation section search device comprising voice database re-registration means for registration.
音声発生源情報とその音声発生源が発する音声の特徴量とを格納し,音声発生源が未知の音声信号について音声発生源を認識するための音声データベースへの学習データの登録処理方法を,コンピュータに実行させるためのプログラムであって,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する処理を,
コンピュータに実行させるための音声データベース登録処理プログラム。
A method for registering learning data in a speech database for recognizing a speech source for a speech signal whose speech source is unknown by storing speech source information and a feature amount of the speech generated by the speech source. Program to be executed by
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. The process of registering the correspondence information with
A speech database registration processing program to be executed by a computer.
あらかじめ音声データベースに登録された音声発生源の音声特徴量との照合により,音声発生源が未知の音声信号から音声発生源を認識する音声発生源認識方法を,コンピュータに実行させるためのプログラムであって,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する音声データベース登録処理と,
音声発生源が未知の音声信号を入力し,入力した音声信号から音声特徴量を抽出し,前記音声データベースに登録された音声発生源の音声特徴量との照合により,複数の音声発生源を含むことがある音声発生源を認識する音声発生源検索処理とを,
コンピュータに実行させるための音声発生源認識プログラム。
This is a program for causing a computer to execute a speech source recognition method for recognizing a speech source from an unknown speech signal by collating with a speech feature amount of a speech source registered in a speech database in advance. hand,
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. Voice database registration processing for registering the correspondence information with the voice database,
A speech source inputs an unknown speech signal, extracts speech features from the input speech signal, and includes a plurality of speech sources by collating with the speech features of the speech sources registered in the speech database. And a speech source search process for recognizing speech sources that may occur.
A speech source recognition program to be executed by a computer.
音声信号中の特定の音声発生源が発する音声発生区間を検索する音声発生区間検索方法を,コンピュータに実行させるためのプログラムであって,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する音声データベース登録処理と,
音声発生区間の検索の対象となる音声信号を入力し,入力した音声信号を所定の時間単位ごとに区切って,各区間から音声特徴量を抽出し,前記音声データベースに登録された音声発生源の音声特徴量との照合により,複数の音声発生源を含むことがある音声発生源を認識する音声発生源検索処理と,
前記音声発生源検索処理によって得られた各区間の音声発生源の検索結果を,あらかじめ定められた複数の区間ごとに集計し,音声発生源の出現回数をもとに特定の音声発生源の音声発生区間を割り出す音声発生源検索結果処理と,
前記音声発生源検索結果処理によって得られた音声発生区間情報を出力する音声発生区間情報出力処理とを,
コンピュータに実行させるための音声発生区間検索プログラム。
A program for causing a computer to execute a voice generation section search method for searching for a voice generation section generated by a specific voice source in a voice signal,
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. Voice database registration processing for registering the correspondence information with the voice database,
A voice signal to be searched for a voice generation section is input, the input voice signal is divided into predetermined time units, voice features are extracted from each section, and a voice generation source registered in the voice database is extracted. A speech source search process for recognizing a speech source that may include a plurality of speech sources by comparing with a speech feature amount;
The search results of the sound source in each section obtained by the sound source search processing are totaled for each of a plurality of predetermined sections, and the sound of the specific sound source is calculated based on the number of appearances of the sound source. Speech source search result processing to determine the occurrence section,
A voice generating section information output process for outputting voice generating section information obtained by the voice source search result processing;
A voice generation section search program to be executed by a computer.
音声発生源情報とその音声発生源が発する音声の特徴量とを格納し,音声発生源が未知の音声信号について音声発生源を認識するための音声データベースへの学習データの登録処理方法を,コンピュータに実行させるためのプログラムを記録した記録媒体であって,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する処理を,
コンピュータに実行させるためのプログラムを記録した
ことを特徴とする音声データベース登録処理プログラムの記録媒体。
A method for registering learning data in a speech database for recognizing a speech source for a speech signal whose speech source is unknown by storing speech source information and a feature amount of the speech generated by the speech source. Recording medium for recording a program to be executed by
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. The process of registering the correspondence information with
A recording medium for an audio database registration processing program, wherein a program to be executed by a computer is recorded.
あらかじめ音声データベースに登録された音声発生源の音声特徴量との照合により,音声発生源が未知の音声信号から音声発生源を認識する音声発生源認識方法を,コンピュータに実行させるためのプログラムを記録した記録媒体であって,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する音声データベース登録処理と,
音声発生源が未知の音声信号を入力し,入力した音声信号から音声特徴量を抽出し,前記音声データベースに登録された音声発生源の音声特徴量との照合により,複数の音声発生源を含むことがある音声発生源を認識する音声発生源検索処理とを,
コンピュータに実行させるためのプログラムを記録した
ことを特徴とする音声発生源認識プログラムの記録媒体。
Record a program that allows a computer to execute a speech source recognition method that recognizes a speech source from an unknown speech signal by comparing it with speech features of the speech source registered in the speech database in advance. Recording medium,
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. Voice database registration processing for registering the correspondence information with the voice database,
A speech source inputs an unknown speech signal, extracts speech features from the input speech signal, and includes a plurality of speech sources by collating with the speech features of the speech sources registered in the speech database. And a speech source search process for recognizing speech sources that may occur.
A recording medium for a speech source recognition program, wherein a program to be executed by a computer is recorded.
音声信号中の特定の音声発生源が発する音声発生区間を検索する音声発生区間検索方法を,コンピュータに実行させるためのプログラムを記録した記録媒体であって,
認識対象となる各音声発生源が発する音声信号を入力し,その音声特徴量を抽出するとともに,入力した複数の音声発生源の音声信号を組み合わせて,複数の音声発生源の音声信号を合成し,その合成した複数の音声発生源の音声信号に関する音声特徴量を抽出して,各音声発生源情報とその音声特徴量との対応情報および前記組み合わせた複数の音声発生源情報とその音声特徴量との対応情報を前記音声データベースに登録する音声データベース登録処理と,
音声発生区間の検索の対象となる音声信号を入力し,入力した音声信号を所定の時間単位ごとに区切って,各区間から音声特徴量を抽出し,前記音声データベースに登録された音声発生源の音声特徴量との照合により,複数の音声発生源を含むことがある音声発生源を認識する音声発生源検索処理と,
前記音声発生源検索処理によって得られた各区間の音声発生源の検索結果を,あらかじめ定められた複数の区間ごとに集計し,音声発生源の出現回数をもとに特定の音声発生源の音声発生区間を割り出す音声発生源検索結果処理と,
前記音声発生源検索結果処理によって得られた音声発生区間情報を出力する音声発生区間情報出力処理とを,
コンピュータに実行させるためのプログラムを記録した
ことを特徴とする音声発生区間検索プログラムの記録媒体。
A recording medium storing a program for causing a computer to execute a voice generation section search method for searching for a voice generation section generated by a specific voice generation source in a voice signal,
Speech signals from each speech source to be recognized are input, and the speech features are extracted. The speech signals from the multiple speech sources are combined to synthesize the speech signals from multiple speech sources. , Extracting the speech feature amounts of the speech signals of the plurality of synthesized speech sources, associating each speech source information with the speech feature amounts, and combining the plurality of speech source information with the speech feature amounts. Voice database registration processing for registering the correspondence information with the voice database,
A voice signal to be searched for a voice generation section is input, the input voice signal is divided into predetermined time units, voice features are extracted from each section, and a voice generation source registered in the voice database is extracted. A speech source search process for recognizing a speech source that may include a plurality of speech sources by comparing with a speech feature amount;
The search results of the sound source in each section obtained by the sound source search processing are totaled for each of a plurality of predetermined sections, and the sound of the specific sound source is calculated based on the number of appearances of the sound source. Speech source search result processing to determine the occurrence section,
A voice generating section information output process for outputting voice generating section information obtained by the voice source search result processing;
A recording medium for a sound generation section search program, which records a program to be executed by a computer.
JP2002312074A 2002-10-28 2002-10-28 Voice generation section search method, voice generation section search apparatus, program thereof, and recording medium for the program Expired - Fee Related JP3980988B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002312074A JP3980988B2 (en) 2002-10-28 2002-10-28 Voice generation section search method, voice generation section search apparatus, program thereof, and recording medium for the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002312074A JP3980988B2 (en) 2002-10-28 2002-10-28 Voice generation section search method, voice generation section search apparatus, program thereof, and recording medium for the program

Publications (2)

Publication Number Publication Date
JP2004145161A true JP2004145161A (en) 2004-05-20
JP3980988B2 JP3980988B2 (en) 2007-09-26

Family

ID=32457068

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002312074A Expired - Fee Related JP3980988B2 (en) 2002-10-28 2002-10-28 Voice generation section search method, voice generation section search apparatus, program thereof, and recording medium for the program

Country Status (1)

Country Link
JP (1) JP3980988B2 (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048534A (en) * 2012-08-31 2014-03-17 Sogo Keibi Hosho Co Ltd Speaker recognition device, speaker recognition method, and speaker recognition program
CN104143332A (en) * 2013-05-08 2014-11-12 卡西欧计算机株式会社 VOICE PROCESSING DEVICE, and VOICE PROCESSING METHOD
JP2016065924A (en) * 2014-09-24 2016-04-28 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
CN111292766A (en) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 Method, apparatus, electronic device, and medium for generating speech samples
WO2021002649A1 (en) * 2019-07-03 2021-01-07 주식회사 마인즈랩 Method and computer program for generating voice for each individual speaker
JP2022096852A (en) * 2020-12-18 2022-06-30 株式会社ミルプラトー Voice recognition program, voice recognition method, voice recognition device and voice recognition system
JP2022541380A (en) * 2019-09-05 2022-09-26 ザ・ジョンズ・ホプキンス・ユニバーシティ Multi-speaker diarization of speech input using neural networks

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014048534A (en) * 2012-08-31 2014-03-17 Sogo Keibi Hosho Co Ltd Speaker recognition device, speaker recognition method, and speaker recognition program
CN104143332A (en) * 2013-05-08 2014-11-12 卡西欧计算机株式会社 VOICE PROCESSING DEVICE, and VOICE PROCESSING METHOD
US10037759B2 (en) 2013-05-08 2018-07-31 Casio Computer Co., Ltd. Voice processing device, voice processing method, and non-transitory recording medium that stores program
JP2016065924A (en) * 2014-09-24 2016-04-28 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
US9812122B2 (en) 2014-09-24 2017-11-07 International Business Machines Corporation Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium
WO2021002649A1 (en) * 2019-07-03 2021-01-07 주식회사 마인즈랩 Method and computer program for generating voice for each individual speaker
JP2022541380A (en) * 2019-09-05 2022-09-26 ザ・ジョンズ・ホプキンス・ユニバーシティ Multi-speaker diarization of speech input using neural networks
JP7340630B2 (en) 2019-09-05 2023-09-07 ザ・ジョンズ・ホプキンス・ユニバーシティ Multi-speaker diarization of speech input using neural networks
CN111292766A (en) * 2020-02-07 2020-06-16 北京字节跳动网络技术有限公司 Method, apparatus, electronic device, and medium for generating speech samples
CN111292766B (en) * 2020-02-07 2023-08-08 抖音视界有限公司 Method, apparatus, electronic device and medium for generating voice samples
JP2022096852A (en) * 2020-12-18 2022-06-30 株式会社ミルプラトー Voice recognition program, voice recognition method, voice recognition device and voice recognition system
JP7103681B2 (en) 2020-12-18 2022-07-20 株式会社ミルプラトー Speech recognition program, speech recognition method, speech recognition device and speech recognition system

Also Published As

Publication number Publication date
JP3980988B2 (en) 2007-09-26

Similar Documents

Publication Publication Date Title
CN110148427B (en) Audio processing method, device, system, storage medium, terminal and server
US8694317B2 (en) Methods and apparatus relating to searching of spoken audio data
US10133538B2 (en) Semi-supervised speaker diarization
JP6326490B2 (en) Utterance content grasping system based on extraction of core words from recorded speech data, indexing method and utterance content grasping method using this system
US9077581B2 (en) Device and method for monitoring, rating and/or tuning to an audio content channel
US6434520B1 (en) System and method for indexing and querying audio archives
JP5142769B2 (en) Voice data search system and voice data search method
KR100735820B1 (en) Speech recognition method and apparatus for multimedia data retrieval in mobile device
JPWO2008114811A1 (en) Information search system, information search method, and information search program
CN103400593B (en) A kind of method of audition audio frequency and device
US20060112812A1 (en) Method and apparatus for adapting original musical tracks for karaoke use
US11687314B2 (en) Digital audio workstation with audio processing recommendations
US20140114656A1 (en) Electronic device capable of generating tag file for media file based on speaker recognition
US12086558B2 (en) Systems and methods for generating multi-language media content with automatic selection of matching voices
JP2009210790A (en) Music selection singer analysis and recommendation device, its method, and program
JP3980988B2 (en) Voice generation section search method, voice generation section search apparatus, program thereof, and recording medium for the program
JP2004219804A (en) System, processing method, and program for similar voice music search, recording medium of program
JP5196114B2 (en) Speech recognition apparatus and program
KR20070016750A (en) Ubiquitous music information retrieval system and method based on query pool with feedback of customer characteristics
JP3803302B2 (en) Video summarization device
JP2013088488A (en) Speech search device, speech search method, and program
JP2003288096A (en) Method, device and program for distributing contents information
EP1688914A1 (en) Method and apparatus relating to searching of spoken audio data
EP1688915A1 (en) Methods and apparatus relating to searching of spoken audio data
JP7241636B2 (en) Information processing equipment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070403

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070525

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20070525

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070626

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070628

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100706

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100706

Year of fee payment: 3

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D02

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110706

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120706

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees