JP2009157050A - Uttering verification device and uttering verification method - Google Patents
Uttering verification device and uttering verification method Download PDFInfo
- Publication number
- JP2009157050A JP2009157050A JP2007334330A JP2007334330A JP2009157050A JP 2009157050 A JP2009157050 A JP 2009157050A JP 2007334330 A JP2007334330 A JP 2007334330A JP 2007334330 A JP2007334330 A JP 2007334330A JP 2009157050 A JP2009157050 A JP 2009157050A
- Authority
- JP
- Japan
- Prior art keywords
- word
- score
- verification
- result
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、音声波形に対し、定められた内容が発話されているかを検証する発話検証システムに関する。 The present invention relates to an utterance verification system that verifies whether a predetermined content is uttered with respect to a speech waveform.
近年、企業におけるコールセンター業務の監視など、従業員と顧客との会話を録音し、会話の妥当性を検証することでクレーム対応や企業コンプライアンスに活用するという音声情報の利用方法が考案されている。 In recent years, a method of using voice information has been devised, such as monitoring call center operations in a company, recording a conversation between an employee and a customer, and verifying the validity of the conversation for use in complaint handling and corporate compliance.
録音した発話を人間が聞いて検証する場合、録音した長さに応じた膨大な時間を要する。話速変換等の従来技術を適用して検証時間の短縮を図ることが考えられるが、人間の聴取能力には限界があり、やはり多大な時間がかかってしまう。コンピュータ処理による自動化も考えられているが、音声の多様性(話者性、環境等の影響)のため難しく、さまざまな発話がなされる実用環境下で有効な技術はいまだ確立されていない。したがって、現在の技術レベルでは、コンピュータによる自動化と人間による検証を組み合わせてシステム化し、最大限の効率化を図るべきである。 When a recorded utterance is heard and verified by a human, it takes an enormous amount of time according to the recorded length. Although it is conceivable to shorten the verification time by applying a conventional technique such as speech speed conversion, human listening ability is limited, and it still takes a lot of time. Although automation by computer processing is also considered, it is difficult due to the diversity of speech (the influence of speaker nature, environment, etc.), and a technology effective in a practical environment where various utterances are made has not yet been established. Therefore, at the current technical level, computerization and human verification should be combined into a system for maximum efficiency.
そのようなシステムとして、たとえば特許第3285145号は、録音音声データベースを検証する方法について述べている。この方法は、大量の発話データベースにつけられたラベルが正しいかどうかを、音声認識を用いて自動検索し、一致しなかったものを人間に検聴させるというものである。これにより、人間が検証する時間を大幅に削減できるとしている。
本発明が解決すべき課題は、コールセンター等で発話された音声の内容が、あらかじめ定められた規則に適合しているかを検証するとき、蓄積された発話データをほぼそのまま検証しなければならず、多くの時間がかかるというものである。 The problem to be solved by the present invention is that when verifying whether the content of speech uttered at a call center conforms to a predetermined rule, the accumulated utterance data must be verified almost as it is, It takes a lot of time.
従来技術は、単語単位での発話検証をコンピュータにより補助するものであった。しかし、発話の内容まで検証するためには、単語レベルでの発話検証では不十分である。なぜなら、発話の内容は最低でも文、すなわち複数の単語から構成されるのが普通であり、同じ内容を発話する場合でも、発話される単語の種類や順序が異なる。したがって、単語単位での発話検証ができても内容まで検証できたとはいえず、本発明の課題を解決できているとはいえない。 In the prior art, utterance verification in units of words is assisted by a computer. However, utterance verification at the word level is insufficient to verify the content of the utterance. This is because the content of an utterance is usually composed of at least a sentence, that is, a plurality of words, and even when the same content is uttered, the types and order of words to be uttered are different. Therefore, even if the utterance verification can be performed in units of words, it cannot be said that the content has been verified and the problem of the present invention cannot be solved.
さらに、単語を検証するタスクと内容を検証するタスクでは、検証作業者に要求される知識レベルが異なる。音声を聞いて内容が正しいかを検証する場合、検証する人間は該当する業務内容に精通し、判断基準を熟知しておかなければならない。このように専門的な知識を持つ人材が必要な場合、人件費としてのコストは高くなる。これも解決すべき課題である。 Furthermore, the knowledge level required for the verification operator differs between the task of verifying the word and the task of verifying the content. When verifying whether or not the contents are correct by listening to the voice, the person to be verified must be familiar with the corresponding work contents and be familiar with the judgment criteria. When human resources with specialized knowledge are required in this way, the cost as labor costs increases. This is also a problem to be solved.
本発明は、検証対象の音声波形から自動音声検出技術により検出した結果が正しいか否かだけを検証する1段階目の「単語検出結果検証」作業と、その検証結果を元に検聴範囲を決定し、検聴範囲から内容が正しいかを検証する2段階目の「内容検証」作業を個別に行えるユーザインタフェースを備えた発話検証システムを提供する。また、過去の検証結果に基づいて検証する検出単語数を削減する。 In the present invention, a first-step “word detection result verification” operation for verifying only whether or not a result detected by an automatic speech detection technology from a speech waveform to be verified is correct, and a listening range is determined based on the verification result. Provided is an utterance verification system including a user interface that can individually determine and verify whether the content is correct from the audition range, and perform a second-stage “content verification” operation. In addition, the number of detected words to be verified based on past verification results is reduced.
本発明の発話検証装置は、入力された音声波形から指定された単語の発話が含まれる位置を単語検出結果として求める単語検出部と、音声波形から単語検出結果として求められた位置を含む波形を再生し、入力された単語検出の肯定・否定の判定を検出単語検証結果として保存する検出単語検証処理部と、単語に基づく検聴範囲決定ルールを格納したファイルと、検出単語検証結果と検聴範囲決定ルールに基づき音声波形の検聴範囲を決定する検聴範囲決定部とを備える。また、入力された音声波形から検聴範囲を含む波形を再生し、入力された再生内容に対する肯定・否定の判定を内容検証結果として保存する内容検証部を有する。 An utterance verification device according to the present invention includes a word detection unit that obtains a position including an utterance of a specified word from an input speech waveform as a word detection result, and a waveform that includes a position obtained as a word detection result from the speech waveform. Detected word verification processing unit that reproduces and stores input word detection affirmative / negative determination as a detected word verification result, a file that stores a determination range determination rule based on words, a detected word verification result, and an audition A listening range determination unit that determines the listening range of the audio waveform based on the range determination rule. In addition, a content verification unit is provided that reproduces a waveform including a listening range from the input audio waveform, and stores affirmation / negative determination as to the content verification result.
単語検出部は入力された音声波形から指定された単語の発話が含まれる位置とともにその検出の確からしさを表すスコアを単語検出結果として求め、検出単語検証処理部は、過去に前記検出単語検証処理部により得られた検出単語検証結果と当該検出単語のスコアからなるデータベースよりスコア事前分布情報を求め、単語検出結果内のスコアとスコア事前分布情報に基づき単語検出の肯定・否定の判定を行うようにしてもよい。このとき、検出単語検証処理部は、スコア事前分布情報のうち肯定と判断されたもののスコアから肯定スコア分布を推定し、肯定スコア分布とあらかじめ指定された許容誤棄却率に基づき許容誤棄却スコア閾値を計算し、許容誤棄却スコア閾値と単語検出結果のスコアを比較して単語検出の肯定・否定を判定することができる。また、検出単語検証処理部は、スコア事前分布情報のうち否定と判断されたもののスコアから否定スコア分布を推定し、否定スコア分布とあらかじめ指定された許容誤受理率に基づき許容誤受理スコア閾値を計算し、許容誤受理スコア閾値と単語検出結果のスコアを比較して単語検出の肯定・否定を判定することができる。 The word detection unit obtains, as a word detection result, a score indicating the probability of the detection together with the position where the utterance of the designated word is included from the input speech waveform, and the detected word verification processing unit has previously detected the detected word verification processing The score prior distribution information is obtained from a database consisting of the detected word verification result obtained by the section and the score of the detected word, and whether the word detection is positive or negative is determined based on the score in the word detection result and the score prior distribution information. It may be. At this time, the detected word verification processing unit estimates the positive score distribution from the score of the score prior distribution information determined to be positive, and based on the positive score distribution and the predetermined allowable error rejection rate, the allowable error rejection score threshold value , And an acceptable false rejection score threshold is compared with the score of the word detection result to determine whether the word detection is positive or negative. In addition, the detected word verification processing unit estimates a negative score distribution from the score of the score prior distribution information that has been determined to be negative, and sets an allowable misacceptance score threshold based on the negative score distribution and an allowable error acceptance rate specified in advance. It is possible to determine whether the word detection is affirmative or negative by calculating and comparing the allowable false acceptance score threshold with the score of the word detection result.
また、本発明による発話検証方法は、単語検出部と、検出単語検証処理部と、検聴範囲決定ルールを格納したファイルと、検聴範囲決定部とを有する発話検証装置を用いて、入力された音声波形の検聴範囲を決定する方法であり、単語検出部により、入力された音声波形から指定された単語の発話が含まれる位置を単語検出結果として求める工程、検出単語検証処理部により、音声波形から単語検出結果として求められた位置を含む波形を再生し、入力された単語検出の肯定・否定の判定結果を検出単語検証結果として保存する工程、検聴範囲決定部により、検出単語検証結果と検聴範囲決定ルールに基づき音声波形の検聴範囲を決定する工程を有する。 Further, the speech verification method according to the present invention is input using an utterance verification device having a word detection unit, a detected word verification processing unit, a file storing a listening range determination rule, and a listening range determination unit. The method of determining the audition range of the voice waveform, the step of obtaining a position including the utterance of the word specified from the input voice waveform as a word detection result by the word detection unit, the detected word verification processing unit, Playing back a waveform including the position obtained as the word detection result from the speech waveform and storing the input word detection positive / negative determination result as the detection word verification result, the detection word verification by the listening range determination unit A step of determining a listening range of the audio waveform based on the result and the listening range determination rule;
1段階目の単語検出結果検証作業は単純な反復作業であり、専門知識が不要で高速に作業が行え、その結果に基づいて限定された部分のみを内容検証すればよくなるため、全体を聞くコストを低減しつつ高精度なチェックが可能となる。さらに、単語検出結果検証作業を過去の検証結果に基づき短縮することにより、1段階目の単語検出結果検証作業自体も短くし、作業時間をおおよそ半分以下にできる。 The first-stage word detection result verification work is a simple repetitive work that does not require specialized knowledge and can be performed at high speed, and only a limited part needs to be verified based on the result, so the cost of listening to the whole This makes it possible to check with high accuracy while reducing the above. Furthermore, by shortening the word detection result verification work based on the past verification results, the first-stage word detection result verification work itself can be shortened, and the work time can be reduced to approximately half or less.
以下、図面を参照して本発明の実施の形態を説明する。 Embodiments of the present invention will be described below with reference to the drawings.
最初に、本発明の第一の実施形態を説明する。本発明の発話検証システムは、図1に示す発話検証装置により構成される。発話検証装置100は、演算装置200、記憶装置300、出力装置400、入力装置500から構成される。記憶装置300はプログラムとデータを保存しており、プログラムとして単語検出プログラム311、検聴範囲決定プログラム314、検出単語検証UI(User Interface)処理プログラム313、内容検証UI処理プログラム315を保持する。またデータとして、音声波形360、単語検出結果370、検出単語検証結果380、内容検証結果390を保持する。更に、単語辞書320、音韻モデル330、検聴範囲決定ルール340を保持する。なお本実施例は、一般的なコンピュータの動作である、記憶装置からプログラムを読み込み演算装置がそれに従い動作するという仕組みを想定したが、本発明はそのような構成に依存せず、記述されたプログラムに従い動作するあらゆるコンピュータに対して適用できる。
First, a first embodiment of the present invention will be described. The utterance verification system of the present invention includes the utterance verification apparatus shown in FIG. The
次に、発話検証装置100の動作を説明する。まず図2に示すように、単語検出プログラム311が音声波形360から、単語辞書320に含まれる単語に相当すると判断できる箇所を、音韻モデル330を用いて探し出し、その結果を単語検出結果370として記録する。以下では、音声波形360は音声波形361、362の2つがあるものとして説明する。音声波形は、例えばリニアPCM(Pulse Code Modulation)形式、MP3(MPEG 1 Layer-3)形式のようなフォーマットで保存された、人間の音声、音楽、物音、雑音等を含むデータである。
Next, the operation of the
単語辞書320は、検出する単語が記述されたデータベースで、各レコードは単語ID、発音列と表記情報から構成される。単語IDはそのレコードのユニークな識別子、発音列はその単語の発音方法を発音記号(音韻、あるいは当該言語の音素など)列、表記情報はその単語の文字表記を示す。なお単語IDを別途用意せずに発音列あるいは表記情報により代えてもよく、表記情報を省略してもよく、発音列を省略し発音列は表記情報から当該言語が定める変換規則により直接求めてもよい。以下では、単語辞書320は図示したように単語IDが「a」と「b」の2レコードが登録されているものとして説明する。音韻モデル330は、単語辞書の発音列を記述する発音記号に対応する、音声波形の特徴を表すデータベースである。例えばHMM(Hidden Markov Model)などの形式を用いる。
The
単語検出プログラム311は、一般にワードスポッティングと呼ばれる既知の技術を用い、音声波形360から、単語辞書320に含まれる単語に相当すると判断できる箇所を、音韻モデル330を用いて探し出す。具体的な方法は当該技術分野の文献に詳しいので、ここでは割愛する。ここでは、図示したように検出区間501〜509が検出されたとする。
The
単語検出プログラム311による単語検出結果は単語検出結果370に格納される。単語検出結果370はデータベースであり、各レコードは検出ID、波形ID、単語ID、位置から構成される。検出IDは単語検出結果370のレコードのユニークな識別子、波形IDは音声波形を特定する識別子、単語IDは単語辞書320に記録された単語を特定する識別子、位置は単語が検出された区間(開始時刻と終了時刻)を表す。ここでは、検出区間501〜509に対応して検出ID 501〜509を付与し、図示した内容が得られたものとする。例えば、検出ID「501」のレコードには、波形ID「361」の位置5.02〜5.89に、単語ID「a」に対応する単語が検出されたことが記録されている。
The word detection result by the
次に、検出単語検証UI処理プログラム313は、単語検出結果に基づき、図3に示すような検出単語検証UIを作成し、単語検出結果判別作業者に提示する。検出単語検証UIは、単語検出結果情報提示部610、音声波形再生指示部620、肯定判別部630、否定判別部640から構成される。
Next, the detected word verification
単語検出結果情報提示部610は、単語検出結果に関連する情報、例えば現在対象となっている単語検出結果レコードの単語IDに対応する発音列あるいは表記情報や、作業の残り工程を示す情報などが含まれる。音声波形再生指示部620は、これが指定されると現在対象となっている単語検出結果レコードの波形ID、位置により指定される音声波形を出力手段により単語検出結果判別作業者に提示する。なお提示する音声波形は、波形IDと位置により指定される音声波形のみであっても、位置の前後数秒を含む区間であっても、波形IDが指定する音声波形全体であってもよい。
The word detection result
肯定判別部630及び否定判別部640は、これが指定されると現在対象となっている単語検出結果レコードについて、それぞれ肯定、否定の判断を下したことを検出単語検証結果380に格納する。検出単語検証結果380は、図4に示すように、検出IDと検証結果から構成される。
When this is specified, the
検出単語検証UI処理プログラム313は、以上の処理を単語検出結果370のすべてのレコードに対して繰り返し行い、検出単語検証結果380を作成する。ここでは、図4に示したような検証結果を、単語検出結果判別作業者が指示したものとする。なお提示するレコードの順序は任意であるが、同じ単語IDのレコードをまとめて提示すれば、単語検出結果判別作業者は同一の単語を連続して判別できるため、作業効率の増大が期待できる。
The detected word verification
次に、検聴範囲決定プログラム314は、図5に示すように、単語検出結果370、検出単語検証結果380と検聴範囲決定ルール340に基づいて検聴範囲を決定し、検聴範囲385に格納する。検聴範囲決定ルール340は、内容IDと条件から構成される。内容IDはそのルールが定める内容を指定する識別子、条件は、検出単語検証結果がどのような状況であったときにそのルールに適合しているかを示す条件である。ここでは、内容ID「901」として、「単語ID=aと単語ID=bの検出単語検証結果が10秒以内の位置関係で存在」という条件が指定されているものとする。
Next, the listening
一般的には、条件判断を行う際、検出単語検証結果380により否定と判断された結果は条件判断から除外する。また条件判断を行うのは、同じ波形ID内で検出されたエントリ同士である。
In general, when performing the condition determination, the result determined to be negative by the detected
検聴範囲は、内容ID、波形ID、区間により構成される。内容IDは検聴範囲決定ルール内の内容IDと同じ意味で、波形IDは音声波形を指定する識別子、区間は検聴すべき範囲、例えば検聴範囲決定ルール内で条件にヒットしたときに使われた検出エントリの区間をすべて含む最小の連続区間、を表す。図2に示した単語検出結果、図4に示した検出単語検証結果、図5に示した検聴範囲決定ルールからは、図5に示すように検聴範囲として波形ID「362」の区間「11.42〜14.31」が得られる。ここで、図4に示した検出単語検証結果380において検出502の検証結果が否定であるため、検聴範囲決定プログラムはルールに一致しないと判断し、後段の内容判別処理から除外する。このような場合が、本発明において検出単語判別の結果により内容判別の作業コストを削減できる典型的な例である。
The audition range includes a content ID, a waveform ID, and a section. The content ID has the same meaning as the content ID in the audition range determination rule. The waveform ID is an identifier for designating a speech waveform. The section is used when a condition is hit in a range to be audited, for example, in the audition range determination rule. Represents the minimum continuous section including all the detected entry sections. From the word detection result shown in FIG. 2, the detected word verification result shown in FIG. 4, and the audition range determination rule shown in FIG. 5, as shown in FIG. 11.42-14.31 "are obtained. Here, since the verification result of
上記検聴範囲決定ルールとしては、以下のものが考えられる。
(1)単語検出結果内のエントリのうち、その検出IDが検出単語検証結果により肯定されたものについて、ある単語ID群がある時間以内にすべて存在する場合、その単語ID群の範囲を検聴範囲とする。
(2)単語検出結果内のエントリのうち、その検出IDが検出単語検証結果により肯定されたものについて、ある単語ID群がある時間以内に定められた順序ですべて存在する場合、その単語ID群の範囲を検聴範囲とする。
(3)上記の検聴範囲を、音声の区切りまで拡大する。音声の区切りとは、音声のパワーや音声らしさに基づく指標により、音声がないと判断された区間の任意の位置である。これにより、後の内容判別作業が行いやすくなる。
The following listening range determination rules can be considered.
(1) Among the entries in the word detection result, when the detection ID is affirmed by the detection word verification result, if all of the word ID group exist within a certain time, the range of the word ID group is audited. Range.
(2) Among the entries in the word detection result, when the detection ID is affirmed by the detection word verification result, if all of the word ID groups exist in a predetermined order within a certain time, the word ID group Is set as the audition range.
(3) The above-described listening range is expanded to a voice break. The voice segmentation is an arbitrary position in a section where it is determined that there is no voice based on an index based on voice power or voice quality. This facilitates later content determination work.
次に、内容検証UI処理プログラム315は、検聴範囲385に基づき、図6に示すような内容検証UIを作成し、内容検証作業者に提示する。内容検証UIは、検聴範囲情報提示部710、音声波形再生指示部720、肯定判別部730、否定判別部740から構成される。
Next, the content verification
検聴範囲情報提示部710は、検聴範囲に関連する情報、例えば現在対象となっている検聴範囲の検証すべき内容を説明する情報や、作業の残り工程を示す情報などが含まれる。声波形再生指示部720は、これが指定されると現在対象となっている検聴範囲レコードの波形IDと区間により指定される音声波形を出力手段により内容検証作業者に提示する。なお提示する音声波形は、区間により指定される音声波形のみであっても、区間の前後数秒を含む区間であっても、波形IDが指定する音声波形全体であってもよい。
The audition range
肯定判別部730及び否定判別部740は、これが指定されると現在対象となっている検聴範囲レコードについて、それぞれ肯定、否定の判断を下したことを内容検証結果390に格納する。内容検証結果390は、図7に示すように、内容IDと検証結果から構成される。
When this is specified, the
内容検証UI処理プログラム315は、以上の処理を検聴範囲385のすべてのレコードに対して繰り返し行い、内容検証結果390を作成する。ここでは、図9に示したような検証結果を、内容検証作業者が指示したものとする。なお提示するレコードの順序は任意であるが、同じ内容IDのレコードをまとめて提示すれば、内容検証作業者は同一の内容に関して連続して判別できるため、作業効率の増大が期待できる。
The content verification
以上の発話検証装置の動作により、音声波形から内容検証結果が得られ、本発明の目的が達成される。 By the operation of the utterance verification device described above, the result of content verification is obtained from the speech waveform, and the object of the present invention is achieved.
なお本実施形態において、発話検証装置は1つの装置であることを仮定したが、2つ以上の装置から構成されていてもよい。例えば、単語検出プログラムと検出単語検証UI処理プログラムの機能を第一の発話検証装置、検聴範囲決定プログラムと内容検証UI処理プログラムの機能を第二の発話検証装置とし、必要なデータをネットワーク等を通して共有することで発話検証システムを実現することが考えられる。 In the present embodiment, it is assumed that the utterance verification device is one device, but it may be composed of two or more devices. For example, the function of the word detection program and the detected word verification UI processing program is the first utterance verification device, the function of the audition range determination program and the content verification UI processing program is the second utterance verification device, and necessary data is a network, etc. It is conceivable to realize an utterance verification system by sharing through the network.
また本実施形態において、検出単語判別UIと内容判別UIはGUI(Graphical User Interface)を仮定したが、同等の機能を持つCUI(Character User Interface)やVUI(Voice User Interface)などで代替してもよい。VUIの実現例としては、判別する単語や判別する内容の説明を音声で流したあと、ユーザが音声入力あるいは手元のボタンにより肯定、は否定、聞き直しを指示することができるものが考えられる。 In this embodiment, the detected word discrimination UI and the content discrimination UI are assumed to be a GUI (Graphical User Interface), but may be replaced with a CUI (Character User Interface) or a VUI (Voice User Interface) having equivalent functions. Good. As an implementation example of the VUI, it is conceivable that the user can instruct affirmation, denial, and re-listening by voice input or a button at hand after explaining the word to be discriminated and the contents to be discriminated by voice.
図12は、本発明の第一の実施形態による処理の流れを示すフローチャートである。最初にステップ11において、入力された音声波形に対して単語検出プログラム311によって単語検出を行う。検出結果は、検出された単語の単語IDと音声波形内での位置情報とともに単語検出結果として記録される。次に、検出単語検証UI処理プログラム313によって、全ての単語検出結果Xに対してステップ12からステップ13の処理を行う。ステップ12では、Xに対する検出単語検証UIを表示し、入力された音声波形の検出された単語の部分を再生し、入力装置500から単語検出に対する判定が入力されるのを待つ。ステップ13では、入力された判定結果を検出単語検証結果に格納する。ステップ14では単語検出結果Xが残っているか判定し、残っていればステップ12に戻って処理を反復し、残っていなければステップ15に進む。
FIG. 12 is a flowchart showing the flow of processing according to the first embodiment of the present invention. First, in step 11, word detection is performed by the
ステップ15では、検聴範囲決定プログラム314によって、検出単語検出結果と検聴範囲決定ルールに基づいて、検聴範囲を決定する。次に、ステップ16に進み、内容検証UIプログラム315により、検聴範囲Yに対する内容検証UIを表示し、音声波形のうち検聴範囲Yで指定された波形を再生し、再生内容に対して入力装置500から肯定あるいは否定の判定が入力されるのを待つ。ステップ17では、入力された判定結果を内容検証結果として保存する。ステップ18では、検証範囲Yが残っているか判定し、残っていればステップ16に戻って処理を反復し、残っていなければ処理を終了する。
In step 15, the audition range is determined by the audition
次に。本発明の第二の実施形態を説明する。第二の実施形態は、第一の実施形態において、単語検出プログラムが出力する各検出単語のスコアを利用し、そのスコアに基づき検出単語検証のコストを削減するものである。本実施形態の発話検証装置101を図8に示す。図1で示した発話検証装置100との違いは、記憶装置内300に閾値判別データベース350を含み、さらに単語検出結果の代わりにスコア付き単語検出結果371を含むことである。さらに、単語検出プログラム311と検出単語検証UI処理プログラム313の動作が以下のように異なる。
next. A second embodiment of the present invention will be described. The second embodiment uses the score of each detected word output from the word detection program in the first embodiment, and reduces the cost of the detected word verification based on the score. An
単語検出プログラム311の動作は、第一の実施形態(図2)で説明した内容に準じるが、単語検出結果の代わりに、図9に示すスコア付き単語検出結果371を出力する点が異なる。スコア付き単語検出結果には、各レコードが示す検出単語のスコア(検出結果がどの程度確からしいかを示す)の情報が追加される。スコアの計算は、一般的には音響モデルとの音響尤度差などに基づく手法が知られている。具体的な方法は当該技術分野の文献に詳しいので、ここでは割愛する。
The operation of the
検出単語検証UI処理プログラム313の動作は、第一の実施形態で説明した内容に準じるが、対象とする検出結果を、スコア付き単語検出結果のスコア情報と閾値判別データベースに基づき選ぶ。
The operation of the detected word verification
まず閾値判別データベースの詳細を図10に示す。閾値判別データベースの各レコードは単語ID、スコア、検証結果から構成される。閾値判別データベースには、本システムにより過去判別された検出単語の判別結果が格納されている。 First, details of the threshold discrimination database are shown in FIG. Each record in the threshold discrimination database is composed of a word ID, a score, and a verification result. The threshold discrimination database stores the discrimination results of the detected words discriminated in the past by this system.
まず検出単語検証UI処理プログラム313は、閾値判別データベース350から、ある単語IDの肯定スコア分布と否定スコア分布を求める。肯定スコア分布と否定スコア分布は正規分布であると仮定すると、標本平均と標本分散が得られる。次に、あらかじめ定められた許容誤受理率A、許容誤棄却率Bに基づき、許容誤受理スコア閾値αと許容誤棄却スコア閾値βを求める。これは、肯定スコア分布と否定スコア分布の確率分布関数をそれぞれf1(X),f2(X)とおくと、f2(X=α)=1−A、f1(X=β)=Bを満たすα、βである。図11にこれらを図示する。
First, the detected word verification
さらにこの結果に基づき、スコア付き単語検出結果の当該単語IDの各レコードを、スコアSの値により以下のように処理する。
(1)S>αの場合、当該レコードの検証結果を受理する。
(2)S<βの場合、当該レコードの検証結果を棄却する。
(3)それ以外の場合、当該レコードを対象とした単語検出結果検証UIを作成し、単語検出結果検証作業者に提示する。肯定判別部あるいは否定判別部が指定された場合、その結果を検出単語検証結果380に格納すると同時に、閾値判別データベース350にも格納する。
Further, based on this result, each record of the word ID of the scored word detection result is processed as follows according to the value of the score S.
(1) When S> α, the verification result of the record is accepted.
(2) If S <β, reject the verification result of the record.
(3) In other cases, a word detection result verification UI for the record is created and presented to the word detection result verification operator. When an affirmative discrimination unit or a negative discrimination unit is designated, the result is stored in the detected
なお、上記のスコアの判別方法は一例であり、他にも以下のような方式が考えられる。
1.閾値判別データベースから許容誤受理スコア閾値αと許容誤棄却スコア閾値βを求めるのを検出IDごとに行わず、一定間隔、あるいは任意のタイミングで行う。
2.誤棄却が許容できない場合、βを用いずαのみを用いる。これは許容誤棄却率B=0、許容誤棄却スコア閾値β=−∞と置くのと等価である。これは誤棄却が許されないタスクに有効である。
Note that the above-described score determination method is merely an example, and other methods such as the following are conceivable.
1. The permissible false acceptance score threshold value α and the permissible false rejection score threshold value β are obtained from the threshold discrimination database for each detection ID, but at regular intervals or at arbitrary timing.
2. If false rejection is not acceptable, only α is used instead of β. This is equivalent to setting the allowable error rejection rate B = 0 and the allowable error rejection score threshold β = −∞. This is useful for tasks that cannot be rejected.
一方、誤受理が許容できないタスクであっても、単語判別時に誤受理されても後段の内容判別時に棄却されるため、内容判別のコスト増加につながるのみで、最終的な誤受理にはつながりにくい。それでも、単語判別時に誤受理が許容できない場合は、同様にαを用いずβのみを用いる。これは許容誤受理率A=1、許容誤受理スコア閾値α=∞と置くのと等価である。
3.話者や環境など、スコア分布が同一と仮定できる集合の識別子をスコア付き単語検出結果と閾値判別データベースに別途付与し、同一の識別子を持つもののみを用いて許容誤受理スコア閾値αと許容誤棄却スコア閾値βを求める。話者や環境によりスコア分布が異なることが分かっている場合、この手法は効果的である。
On the other hand, even if a task is not allowed to be accepted incorrectly, it will be rejected at the subsequent content determination even if it is erroneously accepted at the time of word determination. . Still, if erroneous acceptance is not allowed at the time of word determination, similarly, only β is used instead of α. This is equivalent to setting the allowable error acceptance rate A = 1 and the allowable error acceptance score threshold α = ∞.
3. A set of identifiers that can be assumed to have the same score distribution, such as speakers and environments, is separately assigned to the scored word detection result and the threshold discrimination database, and only those having the same identifier are used to allow the acceptable false acceptance score threshold α A rejection score threshold β is obtained. This method is effective when it is known that the score distribution varies depending on the speaker and the environment.
以上の処理により、上記(1)(2)のように自動的に検証結果が確率理論的に決定されるレコードが存在するため、一定の検出精度を保ったうえで単語検出結果判別作業を短縮できる。 As a result of the above processing, there is a record in which the verification result is automatically determined theoretically as in (1) and (2) above, so that the word detection result determination work is shortened while maintaining a certain detection accuracy. it can.
また、第一の実施形態における検聴範囲決定ルールに、以下のようにスコアを用いてもよい。
(1)単語検出結果内のエントリのうち、その検出IDが検出単語検証結果により肯定されたものについて、ある単語ID群がある時間以内にすべて存在する場合、かつそれらのエントリのスコアの合計値あるいは平均値が定められた値を超える場合、その単語ID群の範囲を検聴範囲とする。
(2)単語検出結果内のエントリのうち、その検出IDが検出単語検証結果により肯定されたものについて、ある単語ID群がある時間以内に定められた順序ですべて存在する場合、かつそれらのエントリのスコアの合計値あるいは平均値が定められた値を超える場合、その単語ID群の範囲を検聴範囲とする。
Moreover, you may use a score as follows for the audition range determination rule in 1st embodiment.
(1) Of the entries in the word detection result, when the detection ID is affirmed by the detection word verification result, if there is a certain word ID group within a certain time, and the total score of those entries Alternatively, when the average value exceeds a predetermined value, the range of the word ID group is set as the audition range.
(2) Of the entries in the word detection result, when the detection ID is affirmed by the detection word verification result, if there is a certain word ID group in an order determined within a certain time, and those entries When the total value or average value of the scores exceeds a predetermined value, the range of the word ID group is set as the audition range.
図13は、本発明の第二の実施形態による処理の流れを示すフローチャートである。最初にステップ21において、入力された音声波形に対して単語検出プログラム311によって単語検出を行う。検出結果は、検出された単語の単語IDと音声波形内での位置情報とスコアともに単語検出結果として記録される。次に、検出単語検証UI処理プログラム313によって、全ての単語検出結果Xに対してステップ22からステップ25の処理を行う。ステップ22では、Xはスコア閾値よる判別が可能かを判定し、可能であればステップ23に進んで、自動判定結果を検出単語検証結果として格納する。スコア閾値よる判別が不可能な場合にはステップ24に進み、Xに対する検出単語検証UIを表示し、入力された音声波形の検出された単語の部分を再生し、入力装置500から単語検出に対する判定が入力されるのを待つ。ステップ25では、入力された判定結果を検出単語検証結果に格納する。次に、ステップ26に進み、スコア閾値を更新する。スコア閾値の更新は、これまでの検出単語検証結果から、ある単語IDの肯定スコア分布と否定スコア分布を求め、あらかじめ定められた許容誤受理率A、許容誤棄却率Bに基づき、許容誤受理スコア閾値αと許容誤棄却スコア閾値βを求めることで行われる。ステップ27では単語検出結果Xが残っているか判定し、残っていればステップ22に戻って処理を反復し、残っていなければステップ28に進む。
FIG. 13 is a flowchart showing the flow of processing according to the second embodiment of the present invention. First, in step 21, word detection is performed by the
ステップ28では、検聴範囲決定プログラム314によって、検出単語検出結果と検聴範囲決定ルールに基づいて、検聴範囲を決定する。次に、ステップ29に進み、内容検証UIプログラム315により、検聴範囲Yに対する内容検証UIを表示し、音声波形のうち検聴範囲Yで指定された波形を再生し、再生内容に対して入力装置500から肯定あるいは否定の判定が入力されるのを待つ。ステップ30では、入力された判定結果を内容検証結果として保存する。ステップ31では、検証範囲Yが残っているか判定し、残っていればステップ29に戻って処理を反復し、残っていなければ処理を終了する。
In step 28, the audition range is determined by the audition
100,101 発話検証装置
100 演算装置
300 記憶装置
400 出力装置
500 入力装置
501〜509 単語検出プログラムにより検出された単語の区間
100, 101
Claims (11)
前記音声波形から前記単語検出結果として求められた位置を含む波形を再生し、入力された単語検出の肯定・否定の判定を検出単語検証結果として保存する検出単語検証処理部と、
単語に基づく検聴範囲決定ルールを格納したファイルと、
前記検出単語検証結果と前記検聴範囲決定ルールに基づき前記音声波形の検聴範囲を決定する検聴範囲決定部と、
を備えることを特徴とする発話検証装置。 A word detection unit that obtains a position where an utterance of a specified word is included as a word detection result from the input speech waveform;
A detection word verification processing unit that reproduces a waveform including the position obtained as the word detection result from the speech waveform, and stores the input word detection positive / negative determination as a detection word verification result;
A file that stores rules for determining the scope of listening based on words;
A listening range determination unit that determines a listening range of the speech waveform based on the detection word verification result and the listening range determination rule;
An utterance verification device comprising:
前記単語検出部は、入力された音声波形から指定された単語の発話が含まれる位置とともにその検出の確からしさを表すスコアを単語検出結果として求め、
前記検出単語検証処理部は、過去に前記検出単語検証処理部により得られた前記検出単語検証結果と当該検出単語のスコアからなるデータベースよりスコア事前分布情報を求め、前記単語検出結果内のスコアと前記スコア事前分布情報に基づき前記単語検出の肯定・否定の判定を行うことを特徴とする発話検証装置。 The utterance verification device according to claim 1,
The word detection unit obtains, as a word detection result, a score indicating the probability of the detection together with a position including the utterance of the specified word from the input speech waveform,
The detected word verification processing unit obtains score prior distribution information from a database including the detected word verification result obtained in the past by the detected word verification processing unit and the score of the detected word, and a score in the word detection result An utterance verification device that performs affirmative / negative determination of the word detection based on the score prior distribution information.
前記検出単語検証処理部は、前記スコア事前分布情報のうち肯定と判断されたもののスコアから肯定スコア分布を推定し、前記肯定スコア分布とあらかじめ指定された許容誤棄却率に基づき許容誤棄却スコア閾値を計算し、前記許容誤棄却スコア閾値と単語検出結果のスコアを比較して前記単語検出の肯定・否定を判定することを特徴とする発話検証装置。 In the utterance verification device according to claim 4,
The detected word verification processing unit estimates an affirmative score distribution from the score of the score prior distribution information determined to be affirmative, and an allowable error rejection score threshold based on the positive score distribution and an allowable error rejection rate specified in advance Utterance verification device, wherein the threshold of the allowable error rejection score is compared with the score of the word detection result to determine whether the word detection is affirmative or negative.
前記検出単語検証処理部は、前記スコア事前分布情報のうち否定と判断されたもののスコアから否定スコア分布を推定し、前記否定スコア分布とあらかじめ指定された許容誤受理率に基づき許容誤受理スコア閾値を計算し、前記許容誤受理スコア閾値と単語検出結果のスコアを比較して前記単語検出の肯定・否定を判定することを特徴とする発話検証装置。 In the utterance verification device according to claim 4,
The detected word verification processing unit estimates a negative score distribution from a score of the score prior distribution information that is determined to be negative, and an allowable misacceptance score threshold based on the negative score distribution and a pre-specified allowable misacceptance rate Utterance verification apparatus, wherein the acceptance error acceptance score threshold value is compared with a word detection result score to determine whether the word detection is affirmative or negative.
前記単語検出部により、入力された音声波形から指定された単語の発話が含まれる位置を単語検出結果として求める工程、
前記検出単語検証処理部により、前記音声波形から前記単語検出結果として求められた位置を含む波形を再生し、入力された単語検出の肯定・否定の判定結果を検出単語検証結果として保存する工程、
前記検聴範囲決定部により、前記検出単語検証結果と前記検聴範囲決定ルールに基づき前記音声波形の検聴範囲を決定する工程、
を有することを特徴とする発話検証方法。 Using an utterance verification device having a word detection unit, a detected word verification processing unit, a file storing the audition range determination rule, and an audition range determination unit, the audition range of the input speech waveform is determined. A method,
A step of obtaining, as a word detection result, a position including the utterance of the designated word from the input speech waveform by the word detection unit;
Reproducing a waveform including a position obtained as the word detection result from the speech waveform by the detected word verification processing unit, and storing an input word detection positive / negative determination result as a detection word verification result;
A step of determining a listening range of the speech waveform based on the detection word verification result and the listening range determination rule by the listening range determination unit;
A speech verification method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007334330A JP2009157050A (en) | 2007-12-26 | 2007-12-26 | Uttering verification device and uttering verification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007334330A JP2009157050A (en) | 2007-12-26 | 2007-12-26 | Uttering verification device and uttering verification method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009157050A true JP2009157050A (en) | 2009-07-16 |
Family
ID=40961159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007334330A Pending JP2009157050A (en) | 2007-12-26 | 2007-12-26 | Uttering verification device and uttering verification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009157050A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180032946A (en) * | 2016-09-23 | 2018-04-02 | 주식회사 케이티 | Method and device for providing customized service mode |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH075890A (en) * | 1993-06-16 | 1995-01-10 | Nippon Telegr & Teleph Corp <Ntt> | Voice interactive device |
JP2000284798A (en) * | 1999-04-01 | 2000-10-13 | Fujitsu Ltd | Device and method for collating speaker |
JP2003505712A (en) * | 1999-04-20 | 2003-02-12 | ベランス・コーポレイション | Broadcast speech recognition system for keyword monitoring |
JP2005084613A (en) * | 2003-09-11 | 2005-03-31 | Kddi Corp | Speaker matching device |
JP2005228178A (en) * | 2004-02-16 | 2005-08-25 | Nec Corp | System and program for supporting preparation of written text |
JP2006107044A (en) * | 2004-10-04 | 2006-04-20 | Oki Consulting Solutions Co Ltd | Conversation recording device and conversation recording method |
JP2006208483A (en) * | 2005-01-25 | 2006-08-10 | Sony Corp | Device, method, and program for assisting survey of interesting matter of listener, and recording medium |
JP2006285212A (en) * | 2006-02-14 | 2006-10-19 | Mitsubishi Electric Information Systems Corp | Program for making computer operate as operator's work support system |
JP2007256714A (en) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | Caption correction apparatus |
-
2007
- 2007-12-26 JP JP2007334330A patent/JP2009157050A/en active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH075890A (en) * | 1993-06-16 | 1995-01-10 | Nippon Telegr & Teleph Corp <Ntt> | Voice interactive device |
JP2000284798A (en) * | 1999-04-01 | 2000-10-13 | Fujitsu Ltd | Device and method for collating speaker |
JP2003505712A (en) * | 1999-04-20 | 2003-02-12 | ベランス・コーポレイション | Broadcast speech recognition system for keyword monitoring |
JP2005084613A (en) * | 2003-09-11 | 2005-03-31 | Kddi Corp | Speaker matching device |
JP2005228178A (en) * | 2004-02-16 | 2005-08-25 | Nec Corp | System and program for supporting preparation of written text |
JP2006107044A (en) * | 2004-10-04 | 2006-04-20 | Oki Consulting Solutions Co Ltd | Conversation recording device and conversation recording method |
JP2006208483A (en) * | 2005-01-25 | 2006-08-10 | Sony Corp | Device, method, and program for assisting survey of interesting matter of listener, and recording medium |
JP2006285212A (en) * | 2006-02-14 | 2006-10-19 | Mitsubishi Electric Information Systems Corp | Program for making computer operate as operator's work support system |
JP2007256714A (en) * | 2006-03-24 | 2007-10-04 | Internatl Business Mach Corp <Ibm> | Caption correction apparatus |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20180032946A (en) * | 2016-09-23 | 2018-04-02 | 주식회사 케이티 | Method and device for providing customized service mode |
KR102568143B1 (en) * | 2016-09-23 | 2023-08-18 | 주식회사 케이티 | Method and device for providing customized service mode |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10902856B2 (en) | System and method of diarization and labeling of audio data | |
US8219397B2 (en) | Data processing system for autonomously building speech identification and tagging data | |
JP4558308B2 (en) | Voice recognition system, data processing apparatus, data processing method thereof, and program | |
JP5377430B2 (en) | Question answering database expansion device and question answering database expansion method | |
JP2007115144A (en) | Conversation controller | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
US20130289987A1 (en) | Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition | |
JP2008164647A (en) | Method for utterance splitting, apparatus and program | |
JP2002132287A (en) | Speech recording method and speech recorder as well as memory medium | |
US20020184019A1 (en) | Method of using empirical substitution data in speech recognition | |
Hirschberg et al. | Generalizing prosodic prediction of speech recognition errors | |
JP5713782B2 (en) | Information processing apparatus, information processing method, and program | |
JP2009157050A (en) | Uttering verification device and uttering verification method | |
JP4861941B2 (en) | Transcription content confirmation method, transcription content confirmation device, computer program | |
JPH10173769A (en) | Voice message retrieval device | |
JP2006171096A (en) | Continuous input speech recognition device and continuous input speech recognizing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20101007 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120314 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120619 |