JP2009157050A - Uttering verification device and uttering verification method - Google Patents

Uttering verification device and uttering verification method Download PDF

Info

Publication number
JP2009157050A
JP2009157050A JP2007334330A JP2007334330A JP2009157050A JP 2009157050 A JP2009157050 A JP 2009157050A JP 2007334330 A JP2007334330 A JP 2007334330A JP 2007334330 A JP2007334330 A JP 2007334330A JP 2009157050 A JP2009157050 A JP 2009157050A
Authority
JP
Grant status
Application
Patent type
Prior art keywords
word
verification
detection
result
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007334330A
Other languages
Japanese (ja)
Inventor
Takashi Sumiyoshi
貴志 住吉
Original Assignee
Hitachi Omron Terminal Solutions Corp
日立オムロンターミナルソリューションズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date

Links

Images

Abstract

PROBLEM TO BE SOLVED: To reduce a verification cost of an uttering content by using an automatic speech detection technology.
SOLUTION: An uttering verification system includes a user interface capable of separately performing: word detection result verification operations S11 to S14 of a first stage, in which only whether a result detected by the automatic speech detection technology from a speech waveform to be detected is correct, is verified by a person; and content verification operations S15 to S18 of a second stage in which a detection audible range is determined based on the verification result, and which verifies whether a content is correct from the detection audible range. Based on the past verification result, the number of detection words to be verified is reduced.
COPYRIGHT: (C)2009,JPO&INPIT

Description

本発明は、音声波形に対し、定められた内容が発話されているかを検証する発話検証システムに関する。 The present invention is, with respect to the speech waveform, to a speech verification system for verifying whether contents are defined is spoken.

近年、企業におけるコールセンター業務の監視など、従業員と顧客との会話を録音し、会話の妥当性を検証することでクレーム対応や企業コンプライアンスに活用するという音声情報の利用方法が考案されている。 In recent years, such as the monitoring of call center operations in the company, to record a conversation with employees and customers, usage of voice information that make the claim correspondence and corporate compliance by verifying the validity of the conversation it has been devised.

録音した発話を人間が聞いて検証する場合、録音した長さに応じた膨大な時間を要する。 If you want to verify the recorded speech human hearing, it required an enormous amount of time corresponding to the length of the recording. 話速変換等の従来技術を適用して検証時間の短縮を図ることが考えられるが、人間の聴取能力には限界があり、やはり多大な時間がかかってしまう。 It is conceivable to apply the prior art speech speed conversion or the like to shorten the verification time, the human hearing ability is limited, it takes too much time. コンピュータ処理による自動化も考えられているが、音声の多様性(話者性、環境等の影響)のため難しく、さまざまな発話がなされる実用環境下で有効な技術はいまだ確立されていない。 While automated also contemplated by the computer processing, speech diversity difficult for (speaker characteristics, influence of the environment), effective technique under practical environment where various speech is made has not yet been established. したがって、現在の技術レベルでは、コンピュータによる自動化と人間による検証を組み合わせてシステム化し、最大限の効率化を図るべきである。 Therefore, in the state of the art, and the system by combining the verification by automated and human by a computer, we should aim for maximum efficiency.

そのようなシステムとして、たとえば特許第3285145号は、録音音声データベースを検証する方法について述べている。 Such systems, for example, Japanese Patent No. 3285145 describes a method for verifying recorded speech database. この方法は、大量の発話データベースにつけられたラベルが正しいかどうかを、音声認識を用いて自動検索し、一致しなかったものを人間に検聴させるというものである。 This method is, whether or not the label that is attached to a large amount of speech database is correct, automatically searches using voice recognition, is that to Ken聴 the ones that did not match to a human. これにより、人間が検証する時間を大幅に削減できるとしている。 As a result, the man is to be able to significantly reduce the time to verify.
特許第3285145号 Patent No. 3285145

本発明が解決すべき課題は、コールセンター等で発話された音声の内容が、あらかじめ定められた規則に適合しているかを検証するとき、蓄積された発話データをほぼそのまま検証しなければならず、多くの時間がかかるというものである。 Problems to be solved by the present invention is the content of the speech uttered by the call center or the like, when verifying whether they comply with the predetermined rules, it must be almost as it validates the stored speech data, is that a lot of time-consuming.

従来技術は、単語単位での発話検証をコンピュータにより補助するものであった。 Prior art has been to assist the computer speech verification word by word. しかし、発話の内容まで検証するためには、単語レベルでの発話検証では不十分である。 However, in order to verify until the contents of the utterance, it is insufficient in the speech verification at the word level. なぜなら、発話の内容は最低でも文、すなわち複数の単語から構成されるのが普通であり、同じ内容を発話する場合でも、発話される単語の種類や順序が異なる。 Because sentence contents of utterances at a minimum, that is, usually be composed of a plurality of words, even when spoken the same content, word types and order in which speech is different. したがって、単語単位での発話検証ができても内容まで検証できたとはいえず、本発明の課題を解決できているとはいえない。 Therefore, it can not be said even if it is spoken verification word by word can be verified until the contents, it can not be said that can solve the problem of the present invention.

さらに、単語を検証するタスクと内容を検証するタスクでは、検証作業者に要求される知識レベルが異なる。 Furthermore, the task of verifying the task and content verifying the word knowledge level required validation operator is different. 音声を聞いて内容が正しいかを検証する場合、検証する人間は該当する業務内容に精通し、判断基準を熟知しておかなければならない。 If you want to verify that the contents are correct listening to the voice, the human to verify is familiar with the business content applicable, it must be kept familiar with the criteria. このように専門的な知識を持つ人材が必要な場合、人件費としてのコストは高くなる。 If the human resources needed in this way with specialized knowledge, cost of the labor cost is high. これも解決すべき課題である。 This is also a problem to be solved.

本発明は、検証対象の音声波形から自動音声検出技術により検出した結果が正しいか否かだけを検証する1段階目の「単語検出結果検証」作業と、その検証結果を元に検聴範囲を決定し、検聴範囲から内容が正しいかを検証する2段階目の「内容検証」作業を個別に行えるユーザインタフェースを備えた発話検証システムを提供する。 The present invention 1 and stage of the "word detection result verifying" work results of detection by the automatic speech detection techniques to verify only whether correct or not from the validation of the speech waveform, the Ken聴 range based on the verification result determined to provide a speech verification system with a user interface that allows individual work "content verification" of the second stage to verify whether they are correct from Ken聴 range. また、過去の検証結果に基づいて検証する検出単語数を削減する。 Further, to reduce the detection number of words to verify based on past verification result.

本発明の発話検証装置は、入力された音声波形から指定された単語の発話が含まれる位置を単語検出結果として求める単語検出部と、音声波形から単語検出結果として求められた位置を含む波形を再生し、入力された単語検出の肯定・否定の判定を検出単語検証結果として保存する検出単語検証処理部と、単語に基づく検聴範囲決定ルールを格納したファイルと、検出単語検証結果と検聴範囲決定ルールに基づき音声波形の検聴範囲を決定する検聴範囲決定部とを備える。 Utterance verification apparatus of the present invention, a word detection unit for determining the position included utterance of the specified word from the input speech waveform as a word detection result, a waveform including a position determined as a word detection result from the speech waveform It plays a detection word verification processing unit for storing the detected words verification result positive-negative determination of the input word detection, and file storing Ken聴 range determination rules based on words, detection word verification result and Ken聴based on the range determination rule and a Ken聴 range determining unit that determines the Ken聴 range of speech waveform. また、入力された音声波形から検聴範囲を含む波形を再生し、入力された再生内容に対する肯定・否定の判定を内容検証結果として保存する内容検証部を有する。 Also, having a content verification unit that stores and reproduces the waveform including a Ken聴 range from the input speech waveform, an affirmative-negative for the input reproduced content as the content verification result.

単語検出部は入力された音声波形から指定された単語の発話が含まれる位置とともにその検出の確からしさを表すスコアを単語検出結果として求め、検出単語検証処理部は、過去に前記検出単語検証処理部により得られた検出単語検証結果と当該検出単語のスコアからなるデータベースよりスコア事前分布情報を求め、単語検出結果内のスコアとスコア事前分布情報に基づき単語検出の肯定・否定の判定を行うようにしてもよい。 The word detection unit obtains a score representing the probability of the detection together with the location that contains the utterance of the given word from the input speech waveform as a word detection result, detects the word verification processing unit, the found word verification process in the past calculated score prior distribution information from the database of the detection word verification result and scores of the detected words obtained by section, to perform a positive-negative decision word detection on the basis of the score and the score prior distribution information in the word detection result it may be. このとき、検出単語検証処理部は、スコア事前分布情報のうち肯定と判断されたもののスコアから肯定スコア分布を推定し、肯定スコア分布とあらかじめ指定された許容誤棄却率に基づき許容誤棄却スコア閾値を計算し、許容誤棄却スコア閾値と単語検出結果のスコアを比較して単語検出の肯定・否定を判定することができる。 At this time, detection word verification processing unit estimates a positive score distribution from scores of what is determined affirmative among scores prior distribution information, positive score distribution and advance on the basis of the specified allowable false rejection rate acceptable false rejection score threshold the calculated and can compare the scores of the allowable false rejection score threshold and word detection result to determine the positive-negative word detection. また、検出単語検証処理部は、スコア事前分布情報のうち否定と判断されたもののスコアから否定スコア分布を推定し、否定スコア分布とあらかじめ指定された許容誤受理率に基づき許容誤受理スコア閾値を計算し、許容誤受理スコア閾値と単語検出結果のスコアを比較して単語検出の肯定・否定を判定することができる。 The detection word verification processing unit, the permissible false acceptance score threshold but is determined negative estimates a negative score distributions from the score, based on a negative score distribution with previously specified allowable false acceptance rate of the score prior distribution information calculated, it is possible to determine the positive-negative word detection by comparing the scores of the permissible false acceptance score threshold and word detection result.

また、本発明による発話検証方法は、単語検出部と、検出単語検証処理部と、検聴範囲決定ルールを格納したファイルと、検聴範囲決定部とを有する発話検証装置を用いて、入力された音声波形の検聴範囲を決定する方法であり、単語検出部により、入力された音声波形から指定された単語の発話が含まれる位置を単語検出結果として求める工程、検出単語検証処理部により、音声波形から単語検出結果として求められた位置を含む波形を再生し、入力された単語検出の肯定・否定の判定結果を検出単語検証結果として保存する工程、検聴範囲決定部により、検出単語検証結果と検聴範囲決定ルールに基づき音声波形の検聴範囲を決定する工程を有する。 Also, speech verification method according to the invention uses a word detection unit, a detection word verification processing unit, and a file storing Ken聴 range determination rule, the speech verification device having a Ken聴 range determining unit are input and a method for determining the Ken聴 range of speech waveform, the word detecting portion, the step of determining the position as a word detection result that includes speech of the specified words from the input voice waveform by detecting the word verification processing unit, step of storing and reproducing the waveform including a position determined as a word detection result from the speech waveform, a positive-negative determination result of the input word detection as detection word verification result by Ken聴 range determining unit, detect a word verification based on the results and Ken聴 range determination rule includes a step of determining the Ken聴 range of speech waveform.

1段階目の単語検出結果検証作業は単純な反復作業であり、専門知識が不要で高速に作業が行え、その結果に基づいて限定された部分のみを内容検証すればよくなるため、全体を聞くコストを低減しつつ高精度なチェックが可能となる。 Word detection result verification in the first stage is a simple repetitive tasks, expertise can do work required fast, since only a limited portion based on the result becomes better if the content verification, hear the overall cost it is possible to reduce high-accuracy check while the. さらに、単語検出結果検証作業を過去の検証結果に基づき短縮することにより、1段階目の単語検出結果検証作業自体も短くし、作業時間をおおよそ半分以下にできる。 Furthermore, a word detection result verification operation by shortening based on past verification result, even shorter word detection result verification itself in the first stage, can be below approximately half the work time.

以下、図面を参照して本発明の実施の形態を説明する。 Hereinafter, with reference to the drawings illustrating the embodiments of the present invention.

最初に、本発明の第一の実施形態を説明する。 First, explaining the first embodiment of the present invention. 本発明の発話検証システムは、図1に示す発話検証装置により構成される。 Speech verification system of the present invention is constituted by the speech verification apparatus shown in FIG. 発話検証装置100は、演算装置200、記憶装置300、出力装置400、入力装置500から構成される。 Utterance verification device 100 includes an arithmetic unit 200, a storage device 300, output device 400, and an input device 500. 記憶装置300はプログラムとデータを保存しており、プログラムとして単語検出プログラム311、検聴範囲決定プログラム314、検出単語検証UI(User Interface)処理プログラム313、内容検証UI処理プログラム315を保持する。 Storage device 300 has stored a program and data, a word detection program 311 as a program, Ken聴 range determination program 314, detects the word verification UI (User Interface) processing program 313 maintains the contents verification UI program 315. またデータとして、音声波形360、単語検出結果370、検出単語検証結果380、内容検証結果390を保持する。 As data, voice waveform 360, word detection result 370, found word verification result 380, to hold the contents verification result 390. 更に、単語辞書320、音韻モデル330、検聴範囲決定ルール340を保持する。 Further, the word dictionary 320, phoneme model 330, to hold the Ken聴 range determination rule 340. なお本実施例は、一般的なコンピュータの動作である、記憶装置からプログラムを読み込み演算装置がそれに従い動作するという仕組みを想定したが、本発明はそのような構成に依存せず、記述されたプログラムに従い動作するあらゆるコンピュータに対して適用できる。 Note this embodiment is an operation of a general computer, but reads computing device program from the storage device is assumed mechanism that operates in accordance with, the present invention does not depend on such a configuration has been described It can be applied to any computer that operates in accordance with a program.

次に、発話検証装置100の動作を説明する。 Next, the operation of the speech verification apparatus 100. まず図2に示すように、単語検出プログラム311が音声波形360から、単語辞書320に含まれる単語に相当すると判断できる箇所を、音韻モデル330を用いて探し出し、その結果を単語検出結果370として記録する。 First, as shown in FIG. 2 recording, from the word detection program 311 the speech waveform 360, a location where it can be determined that corresponds to the words contained in the word dictionary 320, find using the phoneme model 330, the result as a word detection result 370 to. 以下では、音声波形360は音声波形361、362の2つがあるものとして説明する。 In the following, the speech waveform 360 will be described as being two of the audio waveform 361 and 362. 音声波形は、例えばリニアPCM(Pulse Code Modulation)形式、MP3(MPEG 1 Layer-3)形式のようなフォーマットで保存された、人間の音声、音楽、物音、雑音等を含むデータである。 The speech waveform, for example, linear PCM (Pulse Code Modulation) format, MP3 (MPEG 1 Layer-3) stored in a format such as the format is data including human voice, music, sounds, noises or the like.

単語辞書320は、検出する単語が記述されたデータベースで、各レコードは単語ID、発音列と表記情報から構成される。 Word dictionary 320 is a database that word to be detected is described, each record word ID, composed of pronunciation sequence and human-readable information. 単語IDはそのレコードのユニークな識別子、発音列はその単語の発音方法を発音記号(音韻、あるいは当該言語の音素など)列、表記情報はその単語の文字表記を示す。 Word ID indicates the unique identifier of the record, sound column the word pronunciation method phonetic symbols (phonemes or phoneme of the language,) column, the notation information character representation of the word. なお単語IDを別途用意せずに発音列あるいは表記情報により代えてもよく、表記情報を省略してもよく、発音列を省略し発音列は表記情報から当該言語が定める変換規則により直接求めてもよい。 Incidentally may be replaced by sound column or representation information without separately not prepare a word ID, it may be omitted readable information, sound sequence is omitted Pronunciation column is directly obtained by the conversion rule established by the relevant language from human-readable information it may be. 以下では、単語辞書320は図示したように単語IDが「a」と「b」の2レコードが登録されているものとして説明する。 Hereinafter, the word dictionary 320 is a word ID as shown is described as 2 record "a" and "b" are registered. 音韻モデル330は、単語辞書の発音列を記述する発音記号に対応する、音声波形の特徴を表すデータベースである。 Phoneme model 330 corresponds to the phonetic symbols describing the pronunciation sequence of word dictionary, a database representing the feature of the speech waveform. 例えばHMM(Hidden Markov Model)などの形式を用いる。 For example, a format such as HMM (Hidden Markov Model).

単語検出プログラム311は、一般にワードスポッティングと呼ばれる既知の技術を用い、音声波形360から、単語辞書320に含まれる単語に相当すると判断できる箇所を、音韻モデル330を用いて探し出す。 Word detection program 311, using known techniques, commonly referred to as word spotting, the speech waveform 360, a location where it can be determined that corresponds to the words contained in the word dictionary 320, find using the phoneme model 330. 具体的な方法は当該技術分野の文献に詳しいので、ここでは割愛する。 Since specific methods detailed in the literature of the art, is omitted here. ここでは、図示したように検出区間501〜509が検出されたとする。 Here, the detection section 501 to 509, as shown, which is detected.

単語検出プログラム311による単語検出結果は単語検出結果370に格納される。 Word detection result by the word detection program 311 is stored in the word detection result 370. 単語検出結果370はデータベースであり、各レコードは検出ID、波形ID、単語ID、位置から構成される。 Word detection result 370 is a database, each record is detected ID, waveform ID, word ID, comprised of position. 検出IDは単語検出結果370のレコードのユニークな識別子、波形IDは音声波形を特定する識別子、単語IDは単語辞書320に記録された単語を特定する識別子、位置は単語が検出された区間(開始時刻と終了時刻)を表す。 Unique identifier for the record of the detection ID word detection result 370, waveform ID is an identifier for identifying the speech waveform, the word ID is an identifier that identifies the words recorded in the word dictionary 320, the position word is detected interval (start time and represents the end time). ここでは、検出区間501〜509に対応して検出ID 501〜509を付与し、図示した内容が得られたものとする。 Here, the detection ID 501 to 509 grants in response to the detection section 501 to 509, it is assumed that what has been shown is obtained. 例えば、検出ID「501」のレコードには、波形ID「361」の位置5.02〜5.89に、単語ID「a」に対応する単語が検出されたことが記録されている。 For example, in the record of the detection ID "501" is a position from 5.02 to 5.89 of the waveform ID "361", the word corresponding to the word ID "a" is detected is recorded.

次に、検出単語検証UI処理プログラム313は、単語検出結果に基づき、図3に示すような検出単語検証UIを作成し、単語検出結果判別作業者に提示する。 Next, the detection word verification UI processing program 313, based on the word detection result, creates a detected word verification UI as shown in FIG. 3 presents the word detected result determination operator. 検出単語検証UIは、単語検出結果情報提示部610、音声波形再生指示部620、肯定判別部630、否定判別部640から構成される。 Found word verification UI is word detection result information presentation unit 610, the audio waveform reproduction instruction section 620, an affirmative determination unit 630, and a negative decision unit 640.

単語検出結果情報提示部610は、単語検出結果に関連する情報、例えば現在対象となっている単語検出結果レコードの単語IDに対応する発音列あるいは表記情報や、作業の残り工程を示す情報などが含まれる。 Word detection result information presentation unit 610, information related to the word detection result, for example, and pronunciation sequence or readable information corresponding to the word ID of the word detection result record that is currently the subject, and the information indicating the remaining steps of the work included. 音声波形再生指示部620は、これが指定されると現在対象となっている単語検出結果レコードの波形ID、位置により指定される音声波形を出力手段により単語検出結果判別作業者に提示する。 Speech waveform reproduction instruction unit 620, this is the waveform ID word detection result record that is if it is specified as the current target is presented in word detection result determination operator by the output unit a speech waveform specified by position. なお提示する音声波形は、波形IDと位置により指定される音声波形のみであっても、位置の前後数秒を含む区間であっても、波形IDが指定する音声波形全体であってもよい。 Incidentally presented speech waveforms, even only speech waveform designated by the position waveform ID, even a section containing several seconds before and after the position may be the entire speech waveform waveform ID is specified.

肯定判別部630及び否定判別部640は、これが指定されると現在対象となっている単語検出結果レコードについて、それぞれ肯定、否定の判断を下したことを検出単語検証結果380に格納する。 Positive determination unit 630 and a negative determination unit 640, for the word detection result record which is turned when specified as the current target, respectively positive, and stores the found word verification result 380 that issued a negative determination. 検出単語検証結果380は、図4に示すように、検出IDと検証結果から構成される。 Found word verification result 380, as shown in FIG. 4, and a detection ID and verification results.

検出単語検証UI処理プログラム313は、以上の処理を単語検出結果370のすべてのレコードに対して繰り返し行い、検出単語検証結果380を作成する。 Detection word verification UI processing program 313 repeats the above processing for all of the records of the word detection result 370, to create a detection word verification result 380. ここでは、図4に示したような検証結果を、単語検出結果判別作業者が指示したものとする。 Here, the verification result, as shown in FIG. 4, it is assumed that word detection result determination operator instructs. なお提示するレコードの順序は任意であるが、同じ単語IDのレコードをまとめて提示すれば、単語検出結果判別作業者は同一の単語を連続して判別できるため、作業効率の増大が期待できる。 Although the order of the presentation record is arbitrary, if present together records of the same word ID, word detection result determination worker because it can determine continuously the same word can be expected an increase in work efficiency.

次に、検聴範囲決定プログラム314は、図5に示すように、単語検出結果370、検出単語検証結果380と検聴範囲決定ルール340に基づいて検聴範囲を決定し、検聴範囲385に格納する。 Next, Ken聴 range determination program 314, as shown in FIG. 5, word detection result 370, to determine the Ken聴 range based on the detection word verification result 380 and Ken聴 range determination rule 340, the Ken聴 range 385 Store. 検聴範囲決定ルール340は、内容IDと条件から構成される。 Ken聴 range determination rule 340 is composed of a content ID and conditions. 内容IDはそのルールが定める内容を指定する識別子、条件は、検出単語検証結果がどのような状況であったときにそのルールに適合しているかを示す条件である。 The contents ID is an identifier that specifies the content stipulated by the rules, condition is a condition that indicates whether you are fit to that rule when the detected word verification result is what kind of situation. ここでは、内容ID「901」として、「単語ID=aと単語ID=bの検出単語検証結果が10秒以内の位置関係で存在」という条件が指定されているものとする。 Here, as the content ID "901" is intended the condition that "word ID = a and the word ID = b of the detection word verification result exist in a positional relationship within 10 seconds" has been specified.

一般的には、条件判断を行う際、検出単語検証結果380により否定と判断された結果は条件判断から除外する。 In general, when condition judgment, the result of the determination is negative the found word verification result 380 are excluded from the condition determination. また条件判断を行うのは、同じ波形ID内で検出されたエントリ同士である。 Also condition judgment is entry between detected within the same waveform ID.

検聴範囲は、内容ID、波形ID、区間により構成される。 Ken聴 range, the content ID, the waveform ID, constituted by the section. 内容IDは検聴範囲決定ルール内の内容IDと同じ意味で、波形IDは音声波形を指定する識別子、区間は検聴すべき範囲、例えば検聴範囲決定ルール内で条件にヒットしたときに使われた検出エントリの区間をすべて含む最小の連続区間、を表す。 The contents ID is the same meaning as the content ID in Ken聴 range determination rule, used when the waveform ID is hit identifier, section range to be Ken聴, for example, conditions within Ken聴 range determination rule specifying a speech waveform the minimum continuous interval including all the sections of the detection entries we represent. 図2に示した単語検出結果、図4に示した検出単語検証結果、図5に示した検聴範囲決定ルールからは、図5に示すように検聴範囲として波形ID「362」の区間「11.42〜14.31」が得られる。 Word detection results shown in FIG. 2, the detection word verification results shown in FIG. 4, from the Ken聴 range determination rule shown in FIG. 5, the interval of the waveform ID "362" as the Ken聴 range as shown in FIG. 5 " 11.42 to 14.31 "is obtained. ここで、図4に示した検出単語検証結果380において検出502の検証結果が否定であるため、検聴範囲決定プログラムはルールに一致しないと判断し、後段の内容判別処理から除外する。 Since the verification result of the detection 502 in the detection word verification result 380 shown in FIG. 4 is negative, it is determined that Ken聴 range determination program does not match the rule, excluded from subsequent contents determination process. このような場合が、本発明において検出単語判別の結果により内容判別の作業コストを削減できる典型的な例である。 In such cases are typical examples that can reduce the operation cost of the contents discriminated by the result of the detection word discrimination in the present invention.

上記検聴範囲決定ルールとしては、以下のものが考えられる。 As the Ken聴 range determination rule can be considered as follows.
(1)単語検出結果内のエントリのうち、その検出IDが検出単語検証結果により肯定されたものについて、ある単語ID群がある時間以内にすべて存在する場合、その単語ID群の範囲を検聴範囲とする。 (1) among the entries in the word detected result, Ken聴 about what the detected ID is affirmed by the detection word verification result, if all are present within the time there is a word ID group, the scope of the word ID group the range.
(2)単語検出結果内のエントリのうち、その検出IDが検出単語検証結果により肯定されたものについて、ある単語ID群がある時間以内に定められた順序ですべて存在する場合、その単語ID群の範囲を検聴範囲とする。 (2) among the entries in the word detection result, for which the detected ID is affirmed by the detection word verification result, when present, all in the order defined within the time there is a word ID group, the word ID group the scope of the Ken聴 range.
(3)上記の検聴範囲を、音声の区切りまで拡大する。 (3) the Ken聴 the above range, expands to a separator of the speech. 音声の区切りとは、音声のパワーや音声らしさに基づく指標により、音声がないと判断された区間の任意の位置である。 The audio separator, the index based on the power or sound likeness of speech is any position of the section is determined that there is no speech. これにより、後の内容判別作業が行いやすくなる。 This makes it easy to carry out the contents determined work of later.

次に、内容検証UI処理プログラム315は、検聴範囲385に基づき、図6に示すような内容検証UIを作成し、内容検証作業者に提示する。 Next, the content verification UI processing program 315, based on Ken聴 range 385 to create a content verification UI as shown in FIG. 6 presents the content verification operator. 内容検証UIは、検聴範囲情報提示部710、音声波形再生指示部720、肯定判別部730、否定判別部740から構成される。 Contents verification UI is Ken聴 range information presentation section 710, the audio waveform reproduction instruction section 720, an affirmative determination unit 730, and a negative decision unit 740.

検聴範囲情報提示部710は、検聴範囲に関連する情報、例えば現在対象となっている検聴範囲の検証すべき内容を説明する情報や、作業の残り工程を示す情報などが含まれる。 Ken聴 range information presentation section 710, information relating to Ken聴 range, for example, information describing the verification to be contents of Ken聴 range currently the subject, includes the information indicating the remaining steps of the work. 声波形再生指示部720は、これが指定されると現在対象となっている検聴範囲レコードの波形IDと区間により指定される音声波形を出力手段により内容検証作業者に提示する。 Voice waveform reproduction instruction unit 720, which presents the content verification operator by the output unit a speech waveform specified by the waveform ID and the section of Ken聴 range record that is if it is specified as the current target. なお提示する音声波形は、区間により指定される音声波形のみであっても、区間の前後数秒を含む区間であっても、波形IDが指定する音声波形全体であってもよい。 Incidentally presented speech waveforms, even only speech waveform specified by the section, even a section containing several seconds before and after the interval, may be the entire speech waveform waveform ID is specified.

肯定判別部730及び否定判別部740は、これが指定されると現在対象となっている検聴範囲レコードについて、それぞれ肯定、否定の判断を下したことを内容検証結果390に格納する。 Positive determination unit 730 and a negative determination unit 740, which is about when specified Ken聴 range record that is the current subject, stored positive respectively, that issued a negative determination in the content verification result 390. 内容検証結果390は、図7に示すように、内容IDと検証結果から構成される。 Contents verification result 390, as shown in FIG. 7, composed of the content ID and the verification result.

内容検証UI処理プログラム315は、以上の処理を検聴範囲385のすべてのレコードに対して繰り返し行い、内容検証結果390を作成する。 Content verification UI processing program 315 repeats the above processing for all of the records of Ken聴 range 385, to create a content verification result 390. ここでは、図9に示したような検証結果を、内容検証作業者が指示したものとする。 Here, the verification result, as shown in FIG. 9, it is assumed that content verification operator instructs. なお提示するレコードの順序は任意であるが、同じ内容IDのレコードをまとめて提示すれば、内容検証作業者は同一の内容に関して連続して判別できるため、作業効率の増大が期待できる。 Although the order of the presentation record is arbitrary, if present together records for the same content ID, content verification worker because it can determine continuously for the same content, can be expected increase in working efficiency.

以上の発話検証装置の動作により、音声波形から内容検証結果が得られ、本発明の目的が達成される。 The operation of the above utterance verification device, the content verification result from the speech waveform is obtained, an object of the present invention are achieved.

なお本実施形態において、発話検証装置は1つの装置であることを仮定したが、2つ以上の装置から構成されていてもよい。 In the present embodiment, although the utterance verification device was assumed to be a single device, or may be composed of two or more devices. 例えば、単語検出プログラムと検出単語検証UI処理プログラムの機能を第一の発話検証装置、検聴範囲決定プログラムと内容検証UI処理プログラムの機能を第二の発話検証装置とし、必要なデータをネットワーク等を通して共有することで発話検証システムを実現することが考えられる。 For example, a word detection program and the detected word verification UI processing function of the first speech verification device program, and feature a second utterance verification apparatus Ken聴 range determination program and content verification UI processing program, the necessary data networks such as it is conceivable to realize a speech verification system by sharing through.

また本実施形態において、検出単語判別UIと内容判別UIはGUI(Graphical User Interface)を仮定したが、同等の機能を持つCUI(Character User Interface)やVUI(Voice User Interface)などで代替してもよい。 In the present embodiment, although the detection word determination UI and content determination UI has assumed a GUI (Graphical User Interface), it is replaced by such CUI (Character User Interface) and VUI (Voice User Interface) with the same function good. VUIの実現例としては、判別する単語や判別する内容の説明を音声で流したあと、ユーザが音声入力あるいは手元のボタンにより肯定、は否定、聞き直しを指示することができるものが考えられる。 Examples realization of VUI, after flowing in voice the explanation of what to words and discrimination for discriminating the user positive by voice input or the hand button, is negative, can be considered capable of directing the re hear.

図12は、本発明の第一の実施形態による処理の流れを示すフローチャートである。 Figure 12 is a flowchart showing the flow of processing according to the first embodiment of the present invention. 最初にステップ11において、入力された音声波形に対して単語検出プログラム311によって単語検出を行う。 First at step 11, it performs a word detection by the word detection program 311 for the input speech waveform. 検出結果は、検出された単語の単語IDと音声波形内での位置情報とともに単語検出結果として記録される。 Detection result is recorded as a word detection result together with the position information in the word ID and voice waveform of the detected word. 次に、検出単語検証UI処理プログラム313によって、全ての単語検出結果Xに対してステップ12からステップ13の処理を行う。 Then, by detecting the word verification UI processing program 313 performs the process of step 13 from step 12 for all the word detection results X. ステップ12では、Xに対する検出単語検証UIを表示し、入力された音声波形の検出された単語の部分を再生し、入力装置500から単語検出に対する判定が入力されるのを待つ。 In step 12, to display the detected word verification UI for X, reproduces the detected partial word of the input speech waveform, waits for the input device 500 of the determination for the word detected is input. ステップ13では、入力された判定結果を検出単語検証結果に格納する。 In step 13, it stores the determination results input to the detection word verification result. ステップ14では単語検出結果Xが残っているか判定し、残っていればステップ12に戻って処理を反復し、残っていなければステップ15に進む。 Step 14 In word detection result determines whether X remains, the remaining repeating the process returns to step 12 if, the process proceeds to step 15 if not left.

ステップ15では、検聴範囲決定プログラム314によって、検出単語検出結果と検聴範囲決定ルールに基づいて、検聴範囲を決定する。 In step 15, the Ken聴 range determination program 314, based on the detected word detection result and Ken聴 range determination rule, determines the Ken聴 range. 次に、ステップ16に進み、内容検証UIプログラム315により、検聴範囲Yに対する内容検証UIを表示し、音声波形のうち検聴範囲Yで指定された波形を再生し、再生内容に対して入力装置500から肯定あるいは否定の判定が入力されるのを待つ。 Then, the program proceeds to a step 16, the content verification UI program 315, and displays the contents verification UI for Ken聴 range Y, reproduces the waveform specified by Ken聴 range Y of the speech waveform, the input to the reproduction content a positive determination or negative from the device 500 waits for input of. ステップ17では、入力された判定結果を内容検証結果として保存する。 In step 17, it stores the determination result inputted as the content verification result. ステップ18では、検証範囲Yが残っているか判定し、残っていればステップ16に戻って処理を反復し、残っていなければ処理を終了する。 In step 18, it is determined whether there remains validated range Y, the remaining repeating the process returns to step 16 If, the process ends if no remains.

次に。 next. 本発明の第二の実施形態を説明する。 Illustrating a second embodiment of the present invention. 第二の実施形態は、第一の実施形態において、単語検出プログラムが出力する各検出単語のスコアを利用し、そのスコアに基づき検出単語検証のコストを削減するものである。 The second embodiment, in the first embodiment, by using the score of each detection word word detection program output, is to reduce the cost of detection word verification based on their scores. 本実施形態の発話検証装置101を図8に示す。 The speech verification device 101 of the present embodiment shown in FIG. 8. 図1で示した発話検証装置100との違いは、記憶装置内300に閾値判別データベース350を含み、さらに単語検出結果の代わりにスコア付き単語検出結果371を含むことである。 The difference between the speech verification apparatus 100 shown in FIG. 1 includes a threshold determination database 350 in the storage device 300, it is to further comprise a scored word detection result 371 in place of the word detected result. さらに、単語検出プログラム311と検出単語検証UI処理プログラム313の動作が以下のように異なる。 Moreover, the operations of the word detection program 311 detects a word verification UI processing program 313 is different as follows.

単語検出プログラム311の動作は、第一の実施形態(図2)で説明した内容に準じるが、単語検出結果の代わりに、図9に示すスコア付き単語検出結果371を出力する点が異なる。 Operation of word detection program 311 is analogous to what was described in the first embodiment (FIG. 2), instead of the word detected result, is a point of outputting the scored word detection result 371 shown in FIG. 9 differs. スコア付き単語検出結果には、各レコードが示す検出単語のスコア(検出結果がどの程度確からしいかを示す)の情報が追加される。 To score with a word detection result, information of the score of the detection word indicated by each record (indicating the probable extent to which detection result) is added. スコアの計算は、一般的には音響モデルとの音響尤度差などに基づく手法が知られている。 Score calculation is generally known method based on such acoustic likelihood difference between the acoustic model. 具体的な方法は当該技術分野の文献に詳しいので、ここでは割愛する。 Since specific methods detailed in the literature of the art, is omitted here.

検出単語検証UI処理プログラム313の動作は、第一の実施形態で説明した内容に準じるが、対象とする検出結果を、スコア付き単語検出結果のスコア情報と閾値判別データベースに基づき選ぶ。 Operation of the detection word verification UI processing program 313 is analogous to what was described in the first embodiment, the detection result of interest, chosen based on the score information and a threshold determination database scores with word detection result.

まず閾値判別データベースの詳細を図10に示す。 First showing details of threshold determination database in Figure 10. 閾値判別データベースの各レコードは単語ID、スコア、検証結果から構成される。 Each record word ID of threshold determination database, scores, and a verification result. 閾値判別データベースには、本システムにより過去判別された検出単語の判別結果が格納されている。 The threshold determination database, found word determination result is stored which it is determined previously by the present system.

まず検出単語検証UI処理プログラム313は、閾値判別データベース350から、ある単語IDの肯定スコア分布と否定スコア分布を求める。 First detection word verification UI processing program 313, the threshold determination database 350, obtains a negative score distribution affirmative score distribution of a word ID. 肯定スコア分布と否定スコア分布は正規分布であると仮定すると、標本平均と標本分散が得られる。 Negative score distribution affirmative score distribution Assuming a normal distribution, the sample mean and sample variance is obtained. 次に、あらかじめ定められた許容誤受理率A、許容誤棄却率Bに基づき、許容誤受理スコア閾値αと許容誤棄却スコア閾値βを求める。 Then, predetermined acceptable false acceptance rate A, based on the allowable false rejection rate B, we obtain the rejection score threshold β erroneous acceptable and acceptable false acceptance score threshold alpha. これは、肯定スコア分布と否定スコア分布の確率分布関数をそれぞれf 1 (X),f 2 (X)とおくと、f 2 (X=α)=1−A、f 1 (X=β)=Bを満たすα、βである。 This positive score distribution and the probability distribution function of a negative score distribution respectively f 1 (X), by placing a f 2 (X), f 2 (X = α) = 1-A, f 1 (X = β) = satisfy B alpha, a beta. 図11にこれらを図示する。 Illustrate them in Figure 11.

さらにこの結果に基づき、スコア付き単語検出結果の当該単語IDの各レコードを、スコアSの値により以下のように処理する。 Furthermore, based on this result, each record of the word ID of the scored word detection result processed as follows by the value of the score S.
(1)S>αの場合、当該レコードの検証結果を受理する。 (1) In the case of S> alpha, accepts a verification result of the record.
(2)S<βの場合、当該レコードの検証結果を棄却する。 (2) In the case of S <beta, reject the verification result of the record.
(3)それ以外の場合、当該レコードを対象とした単語検出結果検証UIを作成し、単語検出結果検証作業者に提示する。 (3) Otherwise, create a word detection result verification UI intended for the record, it is presented to the word detection result verification worker. 肯定判別部あるいは否定判別部が指定された場合、その結果を検出単語検証結果380に格納すると同時に、閾値判別データベース350にも格納する。 If a positive determination unit or the negative determination part is specified, and at the same time it stores the result in the detection word verification result 380, also stored in the threshold determination database 350.

なお、上記のスコアの判別方法は一例であり、他にも以下のような方式が考えられる。 Incidentally, discrimination method of the scores is an example, also be considered following a scheme other.
1. 1. 閾値判別データベースから許容誤受理スコア閾値αと許容誤棄却スコア閾値βを求めるのを検出IDごとに行わず、一定間隔、あるいは任意のタイミングで行う。 From the threshold determination database to determine the permissible false acceptance score threshold α and acceptable false rejection score threshold β without each detection ID, performed at regular intervals or arbitrary timing.
2. 2. 誤棄却が許容できない場合、βを用いずαのみを用いる。 If false rejection is unacceptable, using α alone without using beta. これは許容誤棄却率B=0、許容誤棄却スコア閾値β=−∞と置くのと等価である。 This allowable false rejection rate B = 0, is equivalent to placing the allowable false rejection score threshold beta = -∞. これは誤棄却が許されないタスクに有効である。 This is effective task false rejection is not allowed.

一方、誤受理が許容できないタスクであっても、単語判別時に誤受理されても後段の内容判別時に棄却されるため、内容判別のコスト増加につながるのみで、最終的な誤受理にはつながりにくい。 On the other hand, even tasks erroneous acceptance is unacceptable, because even accepted erroneously when word determination is rejected during subsequent content determination, only the cost is increased content determination, hard lead in the final false acceptance . それでも、単語判別時に誤受理が許容できない場合は、同様にαを用いずβのみを用いる。 Nevertheless, if the received erroneously at the time the word determination is not acceptable, as well as use of β alone without using alpha. これは許容誤受理率A=1、許容誤受理スコア閾値α=∞と置くのと等価である。 This allowable false acceptance rate A = 1, is equivalent to placing the permissible false acceptance score threshold alpha = ∞.
3. 3. 話者や環境など、スコア分布が同一と仮定できる集合の識別子をスコア付き単語検出結果と閾値判別データベースに別途付与し、同一の識別子を持つもののみを用いて許容誤受理スコア閾値αと許容誤棄却スコア閾値βを求める。 Such as speakers and environments, separately applying an identifier of a set of score distributions can be assumed identical to the scored word detection result and the threshold value determination database, the allowable erroneously acceptable false acceptance score threshold α using only those having the same identifier seek to dismiss score threshold β. 話者や環境によりスコア分布が異なることが分かっている場合、この手法は効果的である。 If the score distribution by the speaker and the environment have been found to be different, this approach is effective.

以上の処理により、上記(1)(2)のように自動的に検証結果が確率理論的に決定されるレコードが存在するため、一定の検出精度を保ったうえで単語検出結果判別作業を短縮できる。 By the above process, the (1) (2) for automatically verifying the result record exists as determined probabilistic theoretically as, shorter word detection result determination work in terms of maintaining a constant detection accuracy it can.

また、第一の実施形態における検聴範囲決定ルールに、以下のようにスコアを用いてもよい。 Further, the Ken聴 range determination rules in the first embodiment, may be used scores as follows.
(1)単語検出結果内のエントリのうち、その検出IDが検出単語検証結果により肯定されたものについて、ある単語ID群がある時間以内にすべて存在する場合、かつそれらのエントリのスコアの合計値あるいは平均値が定められた値を超える場合、その単語ID群の範囲を検聴範囲とする。 (1) among the entries in the word detection result, for which the detected ID is affirmed by the detection word verification result, when all are present within the time there is a word ID group, and the total value of the scores of those entries or if more than an average value was determined value, the range of the word ID group and Ken聴 range.
(2)単語検出結果内のエントリのうち、その検出IDが検出単語検証結果により肯定されたものについて、ある単語ID群がある時間以内に定められた順序ですべて存在する場合、かつそれらのエントリのスコアの合計値あるいは平均値が定められた値を超える場合、その単語ID群の範囲を検聴範囲とする。 (2) among the entries in the word detection result, for which the detected ID is affirmed by the detection word verification result, when all present in the order defined within the time there is a word ID group, and their entry If the excess of the value of the total value or the average value is determined scores, to the scope of the word ID group and Ken聴 range.

図13は、本発明の第二の実施形態による処理の流れを示すフローチャートである。 Figure 13 is a flowchart showing the flow of processing according to a second embodiment of the present invention. 最初にステップ21において、入力された音声波形に対して単語検出プログラム311によって単語検出を行う。 First at step 21, it performs a word detection by the word detection program 311 for the input speech waveform. 検出結果は、検出された単語の単語IDと音声波形内での位置情報とスコアともに単語検出結果として記録される。 Detection result is recorded as a word detection result both position information and scores in the detected word of a word ID and the speech waveform. 次に、検出単語検証UI処理プログラム313によって、全ての単語検出結果Xに対してステップ22からステップ25の処理を行う。 Then, by detecting the word verification UI processing program 313 performs the process of step 25 from step 22 for all the word detection results X. ステップ22では、Xはスコア閾値よる判別が可能かを判定し、可能であればステップ23に進んで、自動判定結果を検出単語検証結果として格納する。 In step 22, X is determined whether it is possible to determine by score threshold, the process proceeds to possibly step 23, stores the automatic judgment result as a detection word verification result. スコア閾値よる判別が不可能な場合にはステップ24に進み、Xに対する検出単語検証UIを表示し、入力された音声波形の検出された単語の部分を再生し、入力装置500から単語検出に対する判定が入力されるのを待つ。 Proceeds to step 24 if by score threshold determination is not possible, to display the detected word verification UI for X, reproduces the detected partial word of the input speech waveform, the determination for the word detected from the input device 500 There waiting to be input. ステップ25では、入力された判定結果を検出単語検証結果に格納する。 In step 25, it stores the determination results input to the detection word verification result. 次に、ステップ26に進み、スコア閾値を更新する。 Then, in step 26, it updates the score threshold. スコア閾値の更新は、これまでの検出単語検証結果から、ある単語IDの肯定スコア分布と否定スコア分布を求め、あらかじめ定められた許容誤受理率A、許容誤棄却率Bに基づき、許容誤受理スコア閾値αと許容誤棄却スコア閾値βを求めることで行われる。 Updating score threshold, the found word verification results to date, obtains a negative score distribution affirmative score distribution of a word ID, based on predetermined acceptable false acceptance rate A, acceptable false rejection rate B, acceptable false acceptance It is performed by determining the rejection score threshold β erroneous acceptable score threshold alpha. ステップ27では単語検出結果Xが残っているか判定し、残っていればステップ22に戻って処理を反復し、残っていなければステップ28に進む。 Step 27 In word detection result determines whether X remains, the remaining repeating the process returns to step 22 if, the process proceeds to step 28 if not left.

ステップ28では、検聴範囲決定プログラム314によって、検出単語検出結果と検聴範囲決定ルールに基づいて、検聴範囲を決定する。 In step 28, the Ken聴 range determination program 314, based on the detected word detection result and Ken聴 range determination rule, determines the Ken聴 range. 次に、ステップ29に進み、内容検証UIプログラム315により、検聴範囲Yに対する内容検証UIを表示し、音声波形のうち検聴範囲Yで指定された波形を再生し、再生内容に対して入力装置500から肯定あるいは否定の判定が入力されるのを待つ。 Then, the program proceeds to a step 29, the content verification UI program 315, and displays the contents verification UI for Ken聴 range Y, reproduces the waveform specified by Ken聴 range Y of the speech waveform, the input to the reproduction content a positive determination or negative from the device 500 waits for input of. ステップ30では、入力された判定結果を内容検証結果として保存する。 In step 30, it stores the determination result inputted as the content verification result. ステップ31では、検証範囲Yが残っているか判定し、残っていればステップ29に戻って処理を反復し、残っていなければ処理を終了する。 In step 31, it is determined whether there remains validated range Y, the remaining repeating the process returns to step 29 If, the process ends if no remains.

本発明による発話検証装置の構成例を示す図。 Diagram illustrating a configuration example of utterance verification apparatus according to the present invention. 音声波形、単語検出結果の詳細と、単語検出プログラムの動作を説明する図。 Diagram for explaining the speech waveform, the details of the word detected result, the operation of the word detection program. 検出単語検証UIを示す図。 Diagram showing the detection word verification UI. 検出単語検証結果の説明図。 Explanatory view of the detection word verification result. 検聴範囲の詳細と、検聴範囲決定プログラムの動作を説明する図。 Details of Ken聴 range diagram for explaining the operation of Ken聴 range determination program. 内容検証UIを示す図。 Diagram showing the contents verification UI. 内容検証結果の説明図。 Explanatory diagram of the contents of the verification result. 本発明による発話検証装置の構成例を示す図。 Diagram illustrating a configuration example of utterance verification apparatus according to the present invention. スコア付き単語検出結果の説明図。 Illustration of a score with a word detection result. 閾値判別データベースの説明図。 Illustration of threshold determination database. 肯定スコア分布と否定スコア分布の説明図。 Illustration negative score distribution affirmative score distribution. 処理の流れを示すフローチャート。 Flowchart illustrating a flow of processing. 処理の流れを示すフローチャート。 Flowchart illustrating a flow of processing.

符号の説明 DESCRIPTION OF SYMBOLS

100,101 発話検証装置100 演算装置300 記憶装置400 出力装置500 入力装置501〜509 単語検出プログラムにより検出された単語の区間 100,101 utterance verification device 100 computing device 300 memory device 400 output device 500 input device 501 to 509 words detected by the detection program-word intervals

Claims (11)

  1. 入力された音声波形から指定された単語の発話が含まれる位置を単語検出結果として求める単語検出部と、 A word detection unit for determining the position included utterance of the specified word from the input speech waveform as a word detection result,
    前記音声波形から前記単語検出結果として求められた位置を含む波形を再生し、入力された単語検出の肯定・否定の判定を検出単語検証結果として保存する検出単語検証処理部と、 The reproduced waveform containing the position obtained as the word detection result from the speech waveform, and detecting the word verification processing unit for storing the detected words verification result positive-negative determination of the input word detection,
    単語に基づく検聴範囲決定ルールを格納したファイルと、 And the file that stores the Ken聴 range decision rules based on the word,
    前記検出単語検証結果と前記検聴範囲決定ルールに基づき前記音声波形の検聴範囲を決定する検聴範囲決定部と、 And Ken聴 range determining unit that determines the Ken聴 range of the voice waveform based on the detection word verification result and the Ken聴 range determination rule,
    を備えることを特徴とする発話検証装置。 Utterance verification device, characterized in that it comprises a.
  2. 請求項1記載の発話検証装置において、前記音声波形から前記検聴範囲を含む波形を再生し、入力された再生内容に対する肯定・否定の判定を内容検証結果として保存する内容検証部を有することを特徴とする発話検証装置。 In speech verification apparatus according to claim 1, further comprising a content verification unit for storing the reproduced waveform containing the Ken聴 range from the speech waveform, an affirmative-negative for the input reproduced content as the content verification result utterance verification device according to claim.
  3. 請求項2記載の発話検証装置において、前記音声波形、前記単語検出結果、前記検出単語検証結果、前記検聴範囲、前記内容検証結果を保持する記憶部を有することを特徴とする発話検証装置。 In speech verification apparatus according to claim 2, wherein the speech waveform, the word detected result, the found word verification result, the Ken聴 range, the utterance verification apparatus characterized by comprising a storage unit that holds the content verification result.
  4. 請求項1記載の発話検証装置において、 In speech verification apparatus according to claim 1,
    前記単語検出部は、入力された音声波形から指定された単語の発話が含まれる位置とともにその検出の確からしさを表すスコアを単語検出結果として求め、 The word detection unit obtains a score representing the probability of the detection together with the location that contains the utterance of the specified word from the input speech waveform as a word detection result,
    前記検出単語検証処理部は、過去に前記検出単語検証処理部により得られた前記検出単語検証結果と当該検出単語のスコアからなるデータベースよりスコア事前分布情報を求め、前記単語検出結果内のスコアと前記スコア事前分布情報に基づき前記単語検出の肯定・否定の判定を行うことを特徴とする発話検証装置。 The detection word verification processing unit, said finding the detected word verification result and scores prior distribution information from the database of scores of the detected words obtained by detecting the word verification processing unit in the past, and scores in the word detection result speech verification system which is characterized in that a positive-negative determination of said word detection on the basis of the score prior distribution information.
  5. 請求項4記載の発話検証装置において、 In speech verification apparatus according to claim 4,
    前記検出単語検証処理部は、前記スコア事前分布情報のうち肯定と判断されたもののスコアから肯定スコア分布を推定し、前記肯定スコア分布とあらかじめ指定された許容誤棄却率に基づき許容誤棄却スコア閾値を計算し、前記許容誤棄却スコア閾値と単語検出結果のスコアを比較して前記単語検出の肯定・否定を判定することを特徴とする発話検証装置。 The detection word verification processing unit, the score pre but is determined affirmative of distribution information to estimate the positive score distributions from the score, based on the positive score distribution with previously specified allowable false rejection rate acceptable false rejection score threshold the calculated, the allowable utterance verification apparatus erroneous by comparing the scores of rejection score threshold and word detection result and judging the positive-negative of said word detection.
  6. 請求項4記載の発話検証装置において、 In speech verification apparatus according to claim 4,
    前記検出単語検証処理部は、前記スコア事前分布情報のうち否定と判断されたもののスコアから否定スコア分布を推定し、前記否定スコア分布とあらかじめ指定された許容誤受理率に基づき許容誤受理スコア閾値を計算し、前記許容誤受理スコア閾値と単語検出結果のスコアを比較して前記単語検出の肯定・否定を判定することを特徴とする発話検証装置。 The detection word verification processing unit, the score prior distribution of what is judged negative in the information to estimate a negative score distributions from the score, based on said negative score distribution with previously specified allowable false acceptance rate acceptable false acceptance score threshold was calculated, the allowable false acceptance score threshold and speech verification system compares the score of word detection result and judging the positive-negative of said word detection.
  7. 単語検出部と、検出単語検証処理部と、検聴範囲決定ルールを格納したファイルと、検聴範囲決定部とを有する発話検証装置を用いて、入力された音声波形の検聴範囲を決定する方法であって、 Using a word detection unit, a detection word verification processing unit, and a file storing Ken聴 range determination rule, the speech verification device having a Ken聴 range determining unit determines a Ken聴 range of the input speech waveform there is provided a method,
    前記単語検出部により、入力された音声波形から指定された単語の発話が含まれる位置を単語検出結果として求める工程、 Step of calculating by the word detection unit, as a word detection result the position that contains spoken of the specified word from the input speech waveform,
    前記検出単語検証処理部により、前記音声波形から前記単語検出結果として求められた位置を含む波形を再生し、入力された単語検出の肯定・否定の判定結果を検出単語検証結果として保存する工程、 Step wherein by detecting the word verification processing unit, the reproduced waveform containing the position obtained as the word detection result from the speech waveform is stored as detection word verification result positive-negative determination result of the input word detection,
    前記検聴範囲決定部により、前記検出単語検証結果と前記検聴範囲決定ルールに基づき前記音声波形の検聴範囲を決定する工程、 Wherein the Ken聴 range determination unit, determining the Ken聴 range of the voice waveform based on the detection word verification result and the Ken聴 range determination rule,
    を有することを特徴とする発話検証方法。 Speech verification method characterized by having a.
  8. 請求項7記載の発話検証方法において、前記音声波形から前記検聴範囲を含む波形を再生し、入力された再生内容に対する肯定・否定の判定結果を内容検証結果として保存する工程を有することを特徴とする発話検証方法。 In speech verification method according to claim 7, comprising the step of storing the reproduced waveform containing the Ken聴 range speech waveform, a positive-negative with respect to the inputted reproduced contents determination result as the content verification result utterance verification method to be.
  9. 請求項7記載の発話検証方法において、前記単語検出結果として検出の確からしさを表すスコアも求め、前記検出単語検証結果を求める工程では、過去に得られたスコアを含む検出単語検証結果からスコア事前分布情報を求め、前記単語検出結果内のスコアと前記スコア事前分布情報に基づき前記単語検出の肯定・否定の判定を行うことを特徴とする発話検証方法。 In speech verification method according to claim 7, also calculated score indicating the likelihood of detection as said word detection result, in the step of obtaining the detection word verification result, score advance from the detection word verification result including scores obtained in the past calculated distribution information, utterance verification method and performing a positive-negative determination of said word detection on the basis of the score and the score prior distribution information in said word detected result.
  10. 請求項9記載の発話検証方法において、前記スコア事前分布情報のうち肯定と判断されたもののスコアから肯定スコア分布を推定し、前記肯定スコア分布とあらかじめ指定された許容誤棄却率に基づき許容誤棄却スコア閾値を計算し、前記許容誤棄却スコア閾値と単語検出結果のスコアを比較して前記単語検出の肯定・否定を判定することを特徴とする発話検証方法。 In speech verification method according to claim 9, although it is determined affirmative estimates a positive score distribution from scores of the score prior distribution information, based on the positive score distribution with previously specified allowable false rejection rate acceptable false rejection speech verification method characterized by the score threshold is calculated to determine the positive-negative of the word detected by comparing the scores of the allowable false rejection score threshold and word detection result.
  11. 請求項9記載の発話検証方法において、前記スコア事前分布情報のうち否定と判断されたもののスコアから否定スコア分布を推定し、前記否定スコア分布とあらかじめ指定された許容誤受理率に基づき許容誤受理スコア閾値を計算し、前記許容誤受理スコア閾値と単語検出結果のスコアを比較して前記単語検出の肯定・否定を判定することを特徴とする発話検証方法。 In speech verification method according to claim 9, a negative score distribution estimated from the score but was judged negative of the score prior distribution information, based on said negative score distribution with previously specified allowable false acceptance rate acceptable false acceptance speech verification method characterized by the score threshold is calculated to determine the positive-negative of the word detected by comparing the scores of the permissible false acceptance score threshold and word detection result.
JP2007334330A 2007-12-26 2007-12-26 Uttering verification device and uttering verification method Pending JP2009157050A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007334330A JP2009157050A (en) 2007-12-26 2007-12-26 Uttering verification device and uttering verification method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007334330A JP2009157050A (en) 2007-12-26 2007-12-26 Uttering verification device and uttering verification method

Publications (1)

Publication Number Publication Date
JP2009157050A true true JP2009157050A (en) 2009-07-16

Family

ID=40961159

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007334330A Pending JP2009157050A (en) 2007-12-26 2007-12-26 Uttering verification device and uttering verification method

Country Status (1)

Country Link
JP (1) JP2009157050A (en)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH075890A (en) * 1993-06-16 1995-01-10 Nippon Telegr & Teleph Corp <Ntt> Voice interactive device
JP2000284798A (en) * 1999-04-01 2000-10-13 Fujitsu Ltd Device and method for collating speaker
JP2003505712A (en) * 1999-04-20 2003-02-12 ベランス・コーポレイション Broadcast speech recognition system for keyword monitoring
JP2005084613A (en) * 2003-09-11 2005-03-31 Kddi Corp Speaker matching device
JP2005228178A (en) * 2004-02-16 2005-08-25 Nec Corp System and program for supporting preparation of written text
JP2006107044A (en) * 2004-10-04 2006-04-20 Oki Consulting Solutions Co Ltd Conversation recording device and conversation recording method
JP2006208483A (en) * 2005-01-25 2006-08-10 Sony Corp Device, method, and program for assisting survey of interesting matter of listener, and recording medium
JP2006285212A (en) * 2006-02-14 2006-10-19 Mitsubishi Electric Information Systems Corp Program for making computer operate as operator's work support system
JP2007256714A (en) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> Caption correction apparatus

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH075890A (en) * 1993-06-16 1995-01-10 Nippon Telegr & Teleph Corp <Ntt> Voice interactive device
JP2000284798A (en) * 1999-04-01 2000-10-13 Fujitsu Ltd Device and method for collating speaker
JP2003505712A (en) * 1999-04-20 2003-02-12 ベランス・コーポレイション Broadcast speech recognition system for keyword monitoring
JP2005084613A (en) * 2003-09-11 2005-03-31 Kddi Corp Speaker matching device
JP2005228178A (en) * 2004-02-16 2005-08-25 Nec Corp System and program for supporting preparation of written text
JP2006107044A (en) * 2004-10-04 2006-04-20 Oki Consulting Solutions Co Ltd Conversation recording device and conversation recording method
JP2006208483A (en) * 2005-01-25 2006-08-10 Sony Corp Device, method, and program for assisting survey of interesting matter of listener, and recording medium
JP2006285212A (en) * 2006-02-14 2006-10-19 Mitsubishi Electric Information Systems Corp Program for making computer operate as operator's work support system
JP2007256714A (en) * 2006-03-24 2007-10-04 Internatl Business Mach Corp <Ibm> Caption correction apparatus

Similar Documents

Publication Publication Date Title
US7472065B2 (en) Generating paralinguistic phenomena via markup in text-to-speech synthesis
US7490039B1 (en) Text to speech system and method having interactive spelling capabilities
US6332122B1 (en) Transcription system for multiple speakers, using and establishing identification
US6792409B2 (en) Synchronous reproduction in a speech recognition system
US6961704B1 (en) Linguistic prosodic model-based text to speech
US7236931B2 (en) Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7668718B2 (en) Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile
US7260534B2 (en) Graphical user interface for determining speech recognition accuracy
US7013276B2 (en) Method of assessing degree of acoustic confusability, and system therefor
US6185530B1 (en) Apparatus and methods for identifying potential acoustic confusibility among words in a speech recognition system
US7315811B2 (en) System and method for accented modification of a language model
US6618702B1 (en) Method of and device for phone-based speaker recognition
US6377921B1 (en) Identifying mismatches between assumed and actual pronunciations of words
US20050180547A1 (en) Automatic identification of telephone callers based on voice characteristics
US20100104087A1 (en) System and Method for Automatically Generating Adaptive Interaction Logs from Customer Interaction Text
US20130090921A1 (en) Pronunciation learning from user correction
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
US7634406B2 (en) System and method for identifying semantic intent from acoustic information
EP1909263B1 (en) Exploitation of language identification of media file data in speech dialog systems
US5329608A (en) Automatic speech recognizer
US20120271631A1 (en) Speech recognition using multiple language models
US7869999B2 (en) Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis
US20050143994A1 (en) Recognizing speech, and processing data
US20040190687A1 (en) Speech recognition assistant for human call center operator
US7406408B1 (en) Method of recognizing phones in speech of any language

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101007

A977 Report on retrieval

Effective date: 20111201

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120117

A521 Written amendment

Effective date: 20120314

Free format text: JAPANESE INTERMEDIATE CODE: A523

A02 Decision of refusal

Effective date: 20120619

Free format text: JAPANESE INTERMEDIATE CODE: A02