JP2010197709A - Voice recognition response method, voice recognition response system and program therefore - Google Patents

Voice recognition response method, voice recognition response system and program therefore Download PDF

Info

Publication number
JP2010197709A
JP2010197709A JP2009042395A JP2009042395A JP2010197709A JP 2010197709 A JP2010197709 A JP 2010197709A JP 2009042395 A JP2009042395 A JP 2009042395A JP 2009042395 A JP2009042395 A JP 2009042395A JP 2010197709 A JP2010197709 A JP 2010197709A
Authority
JP
Japan
Prior art keywords
data
modifier
word
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009042395A
Other languages
Japanese (ja)
Inventor
Seijiro Moribe
正二朗 森部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009042395A priority Critical patent/JP2010197709A/en
Publication of JP2010197709A publication Critical patent/JP2010197709A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice recognition response method and a system etc., promptly and effectively identifying homonyms and words with similar reading. <P>SOLUTION: A voice recognition device 13 recognizes an input voice data, and searches and extracts a corresponding identical or similar word data and its modifier for identification from a storage device. On the basis of this, a voice creation output device 16 creates a fixed form sentence for confirmation of a text format, and outputs it to outside via a voice reproduction output device 18. In response to this, when response of contents denial comes from a speaker, the voice recognition device 13 and a modifier search device 14 extract other identical or similar word data and its modifier again from the storage device, and based on this, the fixed form sentence for confirmation is created and output to outside. When response of the contents affirmation comes from outside on the other hand, the fixed sentence for confirmation which displays that the input voice is recognized is created by the voice creation conversion device 16, and is output to outside via the voice reproduction output device 18. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、音声認識応答方法、音声認識応答システム等に係り、特に、誤認識し易い短い発声の単語についてその認識率の向上を図った音声認識応答方法、音声認識応答システム、及びそのプログラムに関する。   The present invention relates to a speech recognition response method, a speech recognition response system, and the like, and more particularly, to a speech recognition response method, a speech recognition response system, and a program thereof that improve the recognition rate of short utterance words that are easily misrecognized. .

従来より、知られている自動化された音声応答システムにあっては、電話番号や会員番号のように数字や数字列を入力させることが多い。そして、数字の認識の場合には、認識辞書を数字に絞り、似た発声、例えば1と7を間違えないように、例えば7は「しち」ではなく「なな」と発声させることで比較的認識率を高めることができた。   2. Description of the Related Art Conventionally, known automated voice response systems often input numbers and numeric strings such as telephone numbers and member numbers. And in the case of number recognition, the recognition dictionary is narrowed down to numbers, and similar utterances, for example, 1 and 7 are not mistaken, for example 7 is spoken as “Nana” instead of “Shichi”. I was able to increase the recognition rate.

一方、任意の英字や英数となると、例えば、「9」と「Q」のようにほぼ同じ発声の文字も出てくるため、認識が非常に困難であった。英字に関しては間違え易いアルファベットを認識対象(辞書)から外すことで、認識率の向上を図っていた。この種の短い単語データを対象とした音声認識に関する関連技術として、特許文献1に記載のものがある。
この短い単語データを対象とした音声認識に関する特許文献1のものにあっては、同一又は類似した単語データが多いことから、その対話式の応答に多くの時間がかかることを勘案し、誤認識時の対話処理の回数を減少させるために、類似単語テーブルを簡素化した点に特徴と有する。
On the other hand, when an arbitrary alphabetic character or alphanumeric character is used, for example, characters of almost the same utterance such as “9” and “Q” appear, which makes it very difficult to recognize. Regarding English letters, the recognition rate was improved by removing alphabets that are easily mistaken from recognition objects (dictionaries). As a related technology related to speech recognition for this type of short word data, there is one described in Patent Document 1.
In the case of Patent Document 1 relating to speech recognition for short word data, since there are many identical or similar word data, it takes a lot of time for interactive response, and misrecognition The feature is that the similar word table is simplified in order to reduce the number of times of interactive processing.

これに対して、音声認識に関する認識率向上については、誤り修正に際しての負担軽減を図った関連技術として特許文献2のものがり、又音声認識に関する関連技術として特許文献3のものがある。   On the other hand, regarding the recognition rate improvement related to voice recognition, there is a related art of Patent Document 2 as a related technique for reducing a burden at the time of error correction, and there is a related art of Patent Document 3 as a related technique related to voice recognition.

この内、特許文献2のものは、複数単語の組合せ(文節や文そのもの)の入力を必要とし、これらの単語間の組合せから類似度を判定している。又、特許文献3のものは、病院でのカウンセリングに関するもので、入力された音声を分析して話者の心理情報を抽出する音声分析工程および変換された文字情報から課題を抽出して対策案および修正対策案を作成する工程を必須の要件としている。
そして、この特許文献2,3のものは、何れも話者との応答なしに音声文の文節や文そのものを対象としてその内容分析を試みるという手法のものとなっている。
Among these, the thing of patent document 2 requires the input of the combination (sentence or sentence itself) of several words, and the similarity is determined from the combination between these words. Patent Document 3 relates to counseling in a hospital. A voice analysis process that analyzes input speech to extract speaker's psychological information and a problem plan by extracting problems from the converted character information. In addition, the process of creating a corrective measure proposal is an essential requirement.
The methods disclosed in Patent Documents 2 and 3 are methods that attempt to analyze the content of a sentence or sentence itself of a voice sentence without a response with a speaker.

特開2004−233691JP-A-2004-233691 特開2007−256836JP2007-256836 特開平9−114493JP-A-9-114493

上述したように、従来より、例えば、数字の「1(いち)」と「7(しち)」、英字の「C(しー)」と「E(いー)」のような短い単語は、似た発声が多く、誤認識し易いことで知られている。
この現象は人対人の会話でも起こりや易いため、認識エンジンを対象とした認識精度向上という解決策には限界がある。
As described above, conventionally, for example, short words such as the numbers “1 (1)” and “7 (shichi)” and the English letters “C (shi)” and “E (ii)” It is known for its many similar utterances and easy misrecognition.
Since this phenomenon is likely to occur even in a person-to-person conversation, there is a limit to the solution for improving the recognition accuracy targeting the recognition engine.

又、上述した関連技術で知られている前述した特許文献文献1の音声応答システムでは、誤認識した場合、同じ単語で繰り返し数回リトライさせるため何度やっても失敗することが多い。図10に、この場合の一例を示す。   Moreover, in the voice response system of the above-mentioned patent document 1 known by the related art mentioned above, when it misrecognizes, it repeats several times and repeats many times by the same word. FIG. 10 shows an example of this case.

この図10の例では、話者から「一(いち)」が音声入力された場合(ステップS401〜S402)、システムには「みち」と誤認され易い(ステップS403)。
これに対して、システムは、話者の「いいえ」(ステップS404)に対して再発声を促し(ステップS405)、話者から再び「いち」が音声入力され(ステップS406)、システムはこれを又「みち」と誤認し(ステップS407)、話者に対する確認後の「いいえ」に対して(ステップS408)、システムは認識失敗を音声出力する(ステップS409)。
In the example of FIG. 10, when “1” is input from the speaker (steps S401 to S402), the system easily misidentifies “Michi” (step S403).
In response to this, the system prompts a recurrent voice to the speaker “No” (step S404) (step S405), and “1” is again input by the speaker (step S406). Further, the system misidentifies “Michi” (step S407), and in response to “No” after confirmation to the speaker (step S408), the system outputs a recognition failure as a voice (step S409).

一方、これとは別に、認識結果が複数あった場合、候補を順に復唱し、確認させる手法もある。しかしながら、復唱している音声合成が聞き取りにくい場合や、例えば、数字の9と英字のQのように同音の場合は、機器による認識若しくは確認が、事実上困難なものとなっている。図11に、この場合の例を示す。   On the other hand, when there are a plurality of recognition results, there is also a method in which candidates are repeated in order and confirmed. However, when it is difficult to hear the voice synthesis being read back, or when it is the same sound, for example, the number 9 and the letter Q, recognition or confirmation by the device is practically difficult. FIG. 11 shows an example of this case.

この図11の場合は、話者の音声入力「いち」に対して(ステップS501〜S502)、システムが「みち」と認識した場合を示す(ステップS503)。更に、話者の応答「いいえ」(ステップS504)に対して、システムが「いち」と認識したのに(ステップS505)、話者が「いいえ」と誤認した場合(聞き取れなかった)を示す(ステップS506)。この場合も、システムは認識失敗を音声出力して終了する(ステップS507)。
このように、前述した関連技術にあって短い単語の認識では、似た発声が多いことから、誤認識し易いという不都合があった。
The case of FIG. 11 shows a case where the system recognizes “Michi” for the voice input “1” of the speaker (steps S501 to S502) (step S503). Further, in response to the response “No” of the speaker (step S504), the system recognizes “1” (step S505), but indicates that the speaker misidentifies “No” (cannot be heard) ( Step S506). Also in this case, the system outputs the recognition failure as a voice and ends (step S507).
As described above, in the related art described above, the recognition of a short word has a disadvantage that misrecognition easily occurs because there are many similar utterances.

これに対して、前述した各特許文献2,3に開示された技術は、何れも、音声文の文節や文そのものを対象として、その内容分析を試みるという手法のものであり、上述した短い単語でしかも似た発声が多い音声データの認識および識別に対しては、何らの解決策も開示されておらず、何ら対処し得ないものとなっている。   On the other hand, each of the techniques disclosed in Patent Documents 2 and 3 described above is a technique of trying to analyze the content of a sentence or sentence itself of a speech sentence, and the short word described above. In addition, no solution is disclosed for the recognition and identification of voice data with many similar utterances, and it cannot be dealt with at all.

〔発明の目的〕
本発明は、上記関連技術の有する不都合を改善し、同音意義の単語、および読みが類似する単語に対しても、これを迅速に且つ有効に識別することを可能とした音声認識応答方法、音声認識応答システム、及びそのプログラムを提供することを、その目的とする。
(Object of invention)
The present invention improves the inconvenience of the related art and enables a speech recognition and response method, speech that can quickly and effectively identify words having the same sound significance and words having similar readings. It is an object of the present invention to provide a recognition response system and a program thereof.

上記目的を達成するため、本発明にかかる音声認識応答方法では、
外部から送り込まれる単語の音声を音声入力装置が音声データに変換して入力し、
この入力された音声データを音声認識装置が認識すると共に当該音声データに対応する同一の又は近似した単語データとその識別用の修飾語とを、前記音声認識装置及びこれに併設された修飾語検索装置が予め設定された記憶部からそれぞれ別々に検索して抽出し、 次に、この抽出された単語およびその識別用の修飾語に基づいて音声生成出力装置が文章形式の確認用定型文を生成し音声再生装置を介して外部出力し、
この外部出力された確認用定型文に対して外部からその内容を否定する応答が入力された場合に機能して前記音声認識装置及び修飾語検索装置が他の同一の又は近似した単語データとその識別用の修飾語とを前記記憶部からそれぞれ再抽出すると共に、
この再抽出された前記各単語データとその識別用の修飾語とに基づいて前記音声生成出力装置が再び確認用定型文を生成した後、音声再生出力装置を介して外部出力し、
前記確認用定型文に対して外部からそれを肯定する応答が入力された場合に機能し、前記入力された前記音声が認識された旨を表示した確認用定型文を前記音声生成変換装置が生成し音声再生出力装置を介して外部出力するようにしたことを特徴とする。
In order to achieve the above object, in the speech recognition response method according to the present invention,
The voice input device converts the voice of words sent from the outside into voice data and inputs it,
The voice recognition device recognizes the input voice data and searches for the same or similar word data corresponding to the voice data and a modifier for identifying the voice data by using the voice recognition device and the modifier word attached thereto. The device searches and extracts each separately from a preset storage unit, and then the speech generation and output device generates a standard sentence for confirmation of the text format based on the extracted word and its identifying modifier And externally output via the audio playback device,
The voice recognition device and the modifier search device function in the case where a response that denies the content is input from the outside with respect to the externally output confirmation fixed phrase, and the voice recognition device and the modifier search device and other same or approximate word data Re-extracting the modifier for identification from the storage unit, respectively,
Based on the re-extracted each word data and its modifier for identification, the voice generation output device again generates a confirmation fixed phrase, and then externally outputs it through the voice reproduction output device,
The voice generation / conversion device generates a confirmation standard sentence that indicates that the inputted voice has been recognized, which functions when an externally acknowledged response is input to the confirmation standard sentence. However, it is characterized in that it is externally output via an audio reproduction output device.

又、上記目的を達成するため、本発明にかかる音声認識応答システムでは、
外部から送り込まれる単語の音声を音声データに変換し入力する音声入力装置と、この入力された音声データと同一又は近似した一又は二以上の単語データを予め設置された記憶部としての認識単語辞書を検索して抽出する音声認識装置と、この音声認識装置で抽出された前記音声データに対応する単語データを予め記憶されている文章形式の定型文に当てはめる音声生成変換装置と、この音声生成変換装置で生成出力される文章形式の音声データを音声に変換し外部出力する音声再生出力装置とを備え、
前記音声再生出力装置から外部出力された文章形式の音声データに対する肯定又は否定の音声が前記音声入力装置に外部入力された場合に、前記音声認識装置がこれに対処して所定の音声データ処理を実行する音声認識応答システムであって、
前記音声認識装置と音声生成変換装置との間に、前記単語データに直接関係する関連度の高い修飾語データが予め格納された記憶部としての修飾関係辞書を検索して関連度の高い順に前記修飾語データを抽出する修飾語検索装置を介装し、
前記音声生成変換装置が、前記修飾語検索装置で抽出された関連度の高い修飾語データを対応する前記単語データと合成して修飾語付定型文を生成し外部の話者との応答用として出力する修飾語合成出力機能を備えていることを特徴とする。
In order to achieve the above object, in the voice recognition response system according to the present invention,
A speech input device that converts the speech of a word sent from the outside into speech data and inputs it, and a recognition word dictionary as a storage unit in which one or more word data that is the same as or similar to the input speech data is installed in advance A speech recognition device that retrieves and extracts the speech data, a speech generation conversion device that applies word data corresponding to the speech data extracted by the speech recognition device to a pre-stored fixed form sentence, and the speech generation conversion A voice reproduction output device that converts voice data in a sentence format generated and output by the device into voice and outputs it externally;
When an affirmative or negative voice is externally input to the voice input device with respect to sentence-format voice data output from the voice reproduction output device, the voice recognition device copes with this and performs predetermined voice data processing. A voice recognition response system to be executed,
Between the speech recognition device and the speech generation conversion device, a modifier relation dictionary as a storage unit in which modifier word data having a high degree of relation directly related to the word data is stored in advance is searched, and the order of the relation degree is high. Via a modifier search device that extracts modifier data,
The speech generation / conversion device synthesizes the modifier data with a high degree of relevance extracted by the modifier search device with the corresponding word data to generate a fixed phrase with a modifier and use it as a response with an external speaker It is provided with a modifier synthesis output function for outputting.

更に、上記目的を達成するため、本発明にかかる音声認識応答プログラムでは、
音声入力装置を介して外部から入力される音声データを認識すると共に当該音声データに対応する同一又は近似した単語データを予め装備された認識単語辞書を検索して抽出する単語データ抽出処理機能、 前記単語データに付される前記音声データ識別用の修飾語を予め設定された修飾関係辞書を検索して抽出する修飾語抽出処理機能、 この抽出された単語データおよびその識別用の修飾語に基づいて文章形式の確認用定型文を生成する確認用定型文生成処理機能、 及びこの生成された確認用定型文を音声再生出力装置を介して確認用として外部出力する定型文出力制御処理機能、を有し、
この外部出力された確認用の定型文に対して外部からその内容を否定する応答が前記音声入力装置を介して入力された場合に機能して、前記音声データに対応する他の同一又は近似した単語データとその識別用の修飾語とを前記単語データ抽出処理機能および修飾語抽出処理機能を稼働させて前記認識単語辞書および前記修飾関係辞書からそれぞれ再抽出すると共に当該再抽出された単語データとその識別用の修飾語とに基づいて再び前記確認用定型文を生成する再抽出生成機能、 この再抽出され生成された確認用の定型文を音声再生出力装置を介して外部へ再出力する定型文再出力制御処理機能、を備え、
前記確認用の定型文に対して外部からそれを肯定する応答が入力された場合に機能して前記入力された前記音声が認識された旨を表示した確認用定型文を生成し音声再生出力装置を介して外部出力する応答確認処理機能を設け、
これらの各処理機能を、コンピュータに実行させるようにしたことを特徴とする。
Furthermore, in order to achieve the above object, in the speech recognition response program according to the present invention,
A word data extraction processing function for recognizing voice data input from the outside via a voice input device and searching a recognition word dictionary preliminarily equipped with the same or similar word data corresponding to the voice data; Based on the extracted word data and the modifier for identifying the modifier, a modifier-related dictionary for searching for and extracting the modifier for identifying the voice data attached to the word data is extracted. Standard text generation processing function for confirmation that generates standard text for confirmation in sentence format, and standard text output control processing function that outputs the generated standard text for confirmation via the audio playback output device for confirmation And
It functions when a response that denies the content from the outside is input to the standard sentence for confirmation output from the outside via the voice input device, and the same or approximated other corresponding to the voice data Re-extract word data and modifiers for identification thereof from the recognition word dictionary and the modifier relation dictionary by operating the word data extraction processing function and the modifier extraction processing function, respectively, and the re-extracted word data A re-extract generation function for generating the confirmation standard sentence again based on the identification modifier, and a standard form for re-outputting the re-extracted and generated standard sentence for confirmation to the outside via an audio reproduction output device Sentence re-output control processing function,
A voice reproduction output device that generates a confirmation standard sentence that indicates that the inputted voice has been recognized by functioning when an externally acknowledged response is input to the confirmation standard sentence A response confirmation processing function is provided for external output via
Each of these processing functions is executed by a computer.

本発明は、上述したように構成したので、これによると、「修飾語+単語」の限定した状態の組み合わせ文を復唱して外部出力することができるので、これに対する話者の応答もより明確なものとなり、これがため、同音意義の単語及び読みが類似する単語に対しても、修飾語が有効に機能して、これを効率よく識別することが可能となるという他に類をみない優れた音声認識応答方法、音声認識応答システム、及びそのプログラムを提供することができる。   Since the present invention is configured as described above, according to this, a combination sentence in a limited state of “modifier + word” can be repeated and output to the outside, so that the speaker's response to this is also clearer Therefore, even for words with the same sound significance and words with similar readings, the modifiers function effectively and can be identified efficiently. A voice recognition response method, a voice recognition response system, and a program thereof can be provided.

本発明の第1実施形態を示すブロック図である。1 is a block diagram showing a first embodiment of the present invention. 図1の第1実施形態に開示した記憶部としての辞書に格納された単語又は修飾語のサンプルを示す図で、図2(A)は認識単語辞書に格納された単語の辞書サンプルの例を示す図表、図2(B)は修飾関係辞書に格納された修飾語の辞書サンプルの例を示す図表である。FIG. 2A is a diagram showing a sample of words or modifiers stored in a dictionary serving as a storage unit disclosed in the first embodiment of FIG. 1, and FIG. 2A is an example of a dictionary sample of words stored in a recognized word dictionary; FIG. 2B is a chart showing an example of a modifier word dictionary stored in the modifier relation dictionary. 図1に開示した第1実施形態の動作時における話者との音声認識応答の流れを示す説明図である。It is explanatory drawing which shows the flow of the voice recognition response with a speaker at the time of operation | movement of 1st Embodiment disclosed in FIG. 図1に開示した認識単語辞書中の国語辞書領域における単語データの抽出例とその修飾語として関連度の例を示す説明図である。It is explanatory drawing which shows the example of extraction of the word data in the national language dictionary area | region in the recognition word dictionary disclosed in FIG. 1, and the example of a relevance degree as the modifier. 図1に開示した認識単語辞書中の国語辞書領域における単語データの記載例を示す説明図である。It is explanatory drawing which shows the example of description of the word data in the national language dictionary area | region in the recognition word dictionary disclosed in FIG. 図1に開示した修飾関係辞書の関連度の使用例を示す説明図である。It is explanatory drawing which shows the usage example of the relevance degree of the modification relation dictionary disclosed in FIG. 本発明の第2実施形態を示すブロック図である。It is a block diagram which shows 2nd Embodiment of this invention. 図7中に開示した音声認識装置の機能の例を示す説明図である。It is explanatory drawing which shows the example of the function of the speech recognition apparatus disclosed in FIG. 図7中に開示した第2実施形態の動作時における話者との音声認識応答の流れを示す説明図である。It is explanatory drawing which shows the flow of the voice recognition response with a speaker at the time of operation | movement of 2nd Embodiment disclosed in FIG. 関連技術にて実行される音声認識に際しての話者との音声認識応答の流れ(リトライパターンの場合)を示す説明図である。It is explanatory drawing which shows the flow (in the case of a retry pattern) of the speech recognition response with the speaker at the time of the speech recognition performed by related technology. 関連技術にて実行される音声認識に際しての話者との音声認識応答の流れ(単語パターンが複数の場合)を示す説明図である。It is explanatory drawing which shows the flow (when there are multiple word patterns) of the speech recognition response with the speaker at the time of the speech recognition performed by related technology.

〔第1の実施形態〕
以下、本発明にかかる音声認識応答システムの第1実施形態を、図1乃至図6に基づいて説明する。
[First Embodiment]
Hereinafter, a first embodiment of a speech recognition and response system according to the present invention will be described with reference to FIGS.

(構成)
本第1実施形態における音声認識応答システムでは、予め、短い単語とその単語を修飾する単語の関連付け情報を用意しておく。短い単語の認識候補が複数あった場合、外部に居る話者に対しては、「修飾語+短い単語」の組み合わせを復唱し、「はい」又は「いいえ」の何れかの確認を促す。そして、話者からの返事が「いいえ」の場合は、第二候補の「修飾語+短い単語」の組み合わせを復唱するように構成した点に特徴を有する。
(Constitution)
In the speech recognition and response system according to the first embodiment, association information of a short word and a word that modifies the word is prepared in advance. When there are a plurality of short word recognition candidates, the combination of “modifier + short word” is repeated for the outside speaker, and the user is prompted to confirm either “yes” or “no”. When the answer from the speaker is “No”, the second candidate “modifier + short word” combination is repeated.

図1において、音声認識応答システム10は、外部から送り込まれる単語の音声を音声データに変換し入力する音声入力装置11と、この入力された音声データと同一又は近似した一又は二以上の単語データを予め設置された記憶部としての認識単語辞書13Aを検索して抽出する音声認識装置13と、この音声認識装置13で抽出された前記音声データに対応する単語データを、予め記憶されている文章形式の定型文に当てはめる音声生成変換装置16と、この音声生成変換装置16で生成出力される文章形式の音声データを音声に変換し外部出力する音声再生出力装置18とを備えている。   In FIG. 1, a speech recognition and response system 10 converts a speech of a word sent from the outside into speech data and inputs it, and one or two or more word data that are the same as or similar to the input speech data. A speech recognition device 13 that searches and extracts a recognition word dictionary 13A as a storage unit installed in advance, and word data corresponding to the speech data extracted by the speech recognition device 13 are stored in advance. A voice generation / conversion device 16 applied to a fixed form sentence, and a voice reproduction output device 18 that converts voice data in a sentence format generated and output by the voice generation / conversion device 16 into voice and externally outputs the voice data.

そして、音声再生出力装置18から外部出力された文章形式の音声データに対してこれを認識した話者から、その内容の肯定(例えば「はい」)又は否定の音声(例えば「いいえ」)が音声入力装置11に入力された場合には、前述した音声認識装置13がこれに対処して所定の音声データ処理を実行するように構成されている。   Then, from the speaker who recognizes the voice data in the text format output from the voice reproduction output device 18, an affirmative (for example, “Yes”) or negative voice (for example, “No”) of the content is voiced. When input to the input device 11, the above-described speech recognition device 13 is configured to cope with this and execute predetermined speech data processing.

音声認識装置13と音声生成変換装置16との間には、前述した単語データに直接関係する関連度の高い修飾語データが予め格納された記憶部である修飾関係辞書14Aを検索して関連度の高い順に前記修飾語データを抽出する修飾語検索装置14が介装されている。   Between the speech recognition device 13 and the speech generation / conversion device 16, the modifier relation dictionary 14A which is a storage unit in which modifier word data having a high degree of association directly related to the word data described above is stored in advance is searched for A modifier search device 14 is provided for extracting the modifier data in descending order.

又、前述した音声生成変換装置16は、修飾語検索装置14で抽出された関連度の高い修飾語データを対応する前述した単語データと合成して修飾語付定型文を生成し、これを外部に存在する話者との応答用として出力する修飾語合成出力機能を備えている。   Further, the speech generation / conversion device 16 described above generates a modifier-fixed sentence by synthesizing the highly relevant modifier data extracted by the modifier search device 14 with the corresponding word data described above, Is provided with a modifier synthesizing output function for outputting a response to a speaker existing in

ここで、前述した音声生成変換装置16は、修飾語検索装置14で抽出された関連度の高い修飾語データとこれに対応する前記単語データとを合成して修飾語付定型文を生成する文章生成手段16Aと、この生成された修飾語付定型文を音声データに変換して出力する音声変換手段16Bとを備えて構成されている。   Here, the speech generation conversion device 16 described above synthesizes the modifier data with a high degree of relevance extracted by the modifier search device 14 and the word data corresponding thereto to generate a sentence with a modifier prefix. It comprises a generating means 16A and a voice converting means 16B that converts the generated fixed phrase with a modifier into voice data and outputs it.

又、前述した記憶部としての認識単語辞書13Aには、図2(A)に示すように、一つの単語に対して、その読みが同一となる複数の単語、及び前記一の単語とその読みが近似した複数の単語が、それぞれ予め検索可能に格納されている。この認識単語辞書13Aには、前記一つの単語に対して、後述するように、単語ID(単語識別子)と、単語の表記と、読み及び品詞とが一行となって関連づけられて格納されている。これにより、何れからでも確実に検索可能に格納されている。   In addition, in the recognition word dictionary 13A as the storage unit described above, as shown in FIG. 2A, for one word, a plurality of words whose readings are the same, and the one word and its readings. A plurality of words approximated by are stored in advance so as to be searchable. In the recognition word dictionary 13A, as will be described later, a word ID (word identifier), a word notation, a reading, and a part of speech are associated with each other and stored in one line. . Thereby, it is stored so that it can be reliably searched from any.

更に、上述した記憶部としての修飾関係辞書14Aには、図2(B)に示すように、各単語の読みに対応した関連度の高い複数の修飾語が、予め関連度が付されて検索可能に格納されている。
即ち、この修飾関係辞書14Aに格納された検索用の複数の各単語には、例えば、予めその識別記号である単語IDと、前述した認識単語辞書13Aに格納された関連する各単語の単語IDと、その関連度の度合いを表した数値とが付されており、これにより何れからでも検索可能に格納されている。ここで、関連度の数字は、大きい数字ほど関連性が近いことを意味している。
Further, as shown in FIG. 2 (B), a plurality of modifiers having a high degree of relevance corresponding to the reading of each word are added to the modification relation dictionary 14A serving as the storage unit described above, and the degree of association is added in advance. Stored as possible.
That is, each of the plurality of search words stored in the modification relation dictionary 14A includes, for example, a word ID that is an identification symbol in advance and a word ID of each related word stored in the recognition word dictionary 13A described above. And a numerical value indicating the degree of the degree of relevance, and is stored so as to be searchable from any of them. Here, the number of relevance means that the larger the number, the closer the relevance.

前述した音声認識装置13は、音声再生出力装置18からの修飾語付定型文の音声データ出力後に、これを受けた話者からの応答として音声入力装置11に入力される音声データが、前述した修飾語付定型文の記述内容を肯定する内容か否定する内容かを判定する可否判定機能を備えている。   In the voice recognition device 13 described above, the voice data input to the voice input device 11 as a response from the speaker who has received the voice data of the fixed phrase with modifiers from the voice reproduction output device 18 is output as described above. It is provided with a function for determining whether or not the description content of the fixed phrase with a modifier is an affirmative content or a negative content.

又、前述した修飾語検索装置14は、音声認識装置13の可否判定機能の実行によって否定判定が出された場合に、これに基づいて作動し前述した音声データの修飾語付定型文の修飾語部分を前記関連度の値の次に高い値のものを選択して出力する機能を有している。   Further, the modifier search device 14 described above operates based on a negative determination made by executing the availability determination function of the speech recognition device 13 and operates based on this to determine the modifier of the fixed phrase with the modifier of the speech data described above. It has a function of selecting and outputting the part having the next highest value of the relevance value.

この否定判定が出された場合に連動して、前述した音声生成変換装置16は、修飾語検索装置14で抽出された関連度が次に高い修飾語データと前述した否定判定にかかる単語データとを合成して修飾語付定型文を形成してこれを再出力する再合成出力機能を備えている。   In conjunction with this negative determination, the speech generation conversion device 16 described above, the modifier data extracted by the modifier search device 14 with the next highest degree of association, and the word data related to the negative determination described above, A re-synthesizing output function is provided that forms a fixed phrase with modifiers and re-outputs them.

これに対して、音声認識装置13の可否判定機能の実行によって肯定判定が出された場合、これに連動して前述した音声生成変換装置16は、音声認識装置13による肯定判定に基づいて作動し前記音声データにかかる単語データが認識されたことを示す定型文として当該単語データを含む認識定型文を生成し変換出力する認識定型文出力機能を備えている。   On the other hand, when an affirmative determination is made by execution of the availability determination function of the speech recognition device 13, the speech generation conversion device 16 described above operates in conjunction with this based on the affirmative determination by the speech recognition device 13. A recognition standard sentence output function for generating a recognition standard sentence including the word data as a standard sentence indicating that the word data related to the voice data has been recognized, and converting and outputting it is provided.

この場合、認識された単語データは音声認識装置13から後述するテキストデータ格納装置15を介して音声生成変換装置16へ送り込まれるようになっている。同時に、この認識された単語データは、前述した音声データ格納装置12に格納された後、認識単語データ出力制御部20Aによって必要とするデータ処理装置(図示せず)へ送出されるようになっている。   In this case, the recognized word data is sent from the speech recognition device 13 to the speech generation / conversion device 16 via a text data storage device 15 described later. At the same time, the recognized word data is stored in the voice data storage device 12 and then sent to a necessary data processing device (not shown) by the recognized word data output control unit 20A. Yes.

前述した修飾語検索装置14には、音声識別装置13で選択抽出される単語データと修飾語検索装置14にて抽出された修飾語データとをテキストデータとして一時的に記憶するテキストデータ格納装置15が併設されている。
そして、前述した音声生成変換装置16では、このテキストデータ格納装置15に格納された単語データとこれに対応する修飾語データとを対象として、前述した修飾語合成出力機能を実行するように構成されている。
In the modifier search device 14 described above, a text data storage device 15 for temporarily storing the word data selected and extracted by the voice identification device 13 and the modifier data extracted by the modifier search device 14 as text data. Is attached.
The speech generation / conversion device 16 described above is configured to execute the above-described modifier synthesis output function for the word data stored in the text data storage device 15 and the modifier data corresponding thereto. ing.

又、前述した音声入力装置11と音声識別装置13との間には、前述した音声入力装置11で受信される音声情報を記憶する音声データ格納装置12が介装されている。
この音声データ格納装置12は、その一部が、前述した音声再生出力装置18と音声生成変換装置16との間にも介装され、前述した音声情報の記憶領域とは異なった記憶領域で、音声生成変換装置16から出力される音声データを記憶する機能を備えている。
A voice data storage device 12 for storing voice information received by the voice input device 11 is interposed between the voice input device 11 and the voice identification device 13.
A part of the audio data storage device 12 is also interposed between the audio reproduction output device 18 and the audio generation conversion device 16 described above, and is a storage area different from the audio information storage area described above. A function of storing audio data output from the audio generation / conversion device 16 is provided.

符号20は、上記各構成要件の各部がその機能を有効に且つ円滑に実行し得るように制御する主制御部を示す。又、前述した音声データ格納装置12には認識単語データ抽出制御部20Aが併設されており、この認識単語データ抽出制御部20Aを介して前記認識単語データは外部処理用としても外部出力されるようになっている。   Reference numeral 20 denotes a main control unit that controls each component of the above-described constituent elements so that the function can be executed effectively and smoothly. Further, the voice data storage device 12 is provided with a recognized word data extraction control unit 20A, and the recognized word data is externally output for external processing via the recognized word data extraction control unit 20A. It has become.

ここで、上述した本第1実施形態の各構成要素を、更に具体的に説明する。
音声を再生出力する音声再生出力装置18は、音声データ格納装置12から音声データを読み込み再生するためのもので、例えば増幅器を備えたスピーカで構成されている。
この音声を再生出力する音声再生出力装置18は、電話網経由で相手先電話機のスピーカに対して音声データを送出するように構成したものであってもよい。
Here, each component of this 1st Embodiment mentioned above is demonstrated more concretely.
The audio reproduction output device 18 that reproduces and outputs audio is for reading and reproducing audio data from the audio data storage device 12, and is composed of, for example, a speaker provided with an amplifier.
The audio reproduction output device 18 for reproducing and outputting the audio may be configured to transmit audio data to the speaker of the other party telephone via the telephone network.

この音声再生出力装置18に送り込まれる再生可能な音声データは、予め音声データ格納装置12に格納した音声データか、テキストを音声データに変換する音声データ変換手段16Bで作成された音声データのどちらであってもよい。   The reproducible audio data sent to the audio reproduction output device 18 is either audio data stored in the audio data storage device 12 in advance or audio data created by the audio data conversion means 16B for converting text into audio data. There may be.

外部の話者から音声を入力する音声入力装置11は、マイクそのものか、或いは電話網経由で相手先電話機のマイクから受信した音声を音声データに変換する手段から成り、かかる状態で得られた音声データを音声データ格納装置12に送り込む機能を有する。   The voice input device 11 for inputting voice from an external speaker includes a microphone itself or means for converting voice received from the microphone of the other party's telephone via the telephone network into voice data. It has a function of sending data to the audio data storage device 12.

音声認識装置13は、音声入力装置11が音声データ格納装置12に格納した音声データを解析し、近い発声の単語及び単語の属性を認識単語辞書13Aから取得する機能を備えている。この場合、似た発声が複数ある場合は、優先度(スコア)をつけた上で複数の単語についてその属性を認識単語辞書13Aから取得する機能を備えている。   The speech recognition device 13 has a function of analyzing speech data stored in the speech data storage device 12 by the speech input device 11 and acquiring words and word attributes of a similar utterance from the recognized word dictionary 13A. In this case, when there are a plurality of similar utterances, a function of acquiring the attributes of the plurality of words from the recognized word dictionary 13A after assigning priorities (scores) is provided.

この認識単語辞書13Aは、前述したように、単語ID、表記、よみ、品詞にかかる各情報が予め記憶されている。この内、本実施形態では、単語IDは一位の番号、表記は単語の表記、よみは単語の読み、品詞は単語の品詞が、それそれ設定されている。   In the recognition word dictionary 13A, as described above, information related to the word ID, notation, reading, and part of speech is stored in advance. Among these, in this embodiment, the word ID is set to the first number, the notation is the word notation, the reading is the word reading, and the part of speech is the word part of speech.

前述した修飾関係辞書14Aから単語データに対応した修飾語を検索し取得する修飾語検索装置14は、音声認識装置13で取得された単語を優先度の高い順にならべ、それぞれの単語に対し、修飾関係辞書14Aから関連度の高い修飾語を取得し、テキストデータ格納装置15に「修飾語+短い単語」の形式で格納する機能を備えている。   The modifier search device 14 that searches for and acquires modifiers corresponding to word data from the modifier relation dictionary 14A described above arranges the words acquired by the speech recognition device 13 in descending order of priority, and modifies each word. It has a function of acquiring a modifier with a high degree of association from the relation dictionary 14A and storing it in the text data storage device 15 in the form of “modifier + short word”.

ここで、修飾関係辞書14Aは、単語ID、関連単語ID、関連度に関する三つの情報が予め記憶されている。この内、本実施形態では、単語IDは修飾語の単語ID、関連単語IDは被修飾語の単語ID、関連度は二つの単語が同義である程高い数値が、それぞれ設定されている。   Here, in the modification relation dictionary 14A, three pieces of information relating to the word ID, the related word ID, and the degree of association are stored in advance. Among these, in this embodiment, the word ID is set as the word ID of the modifier, the related word ID is set as the word ID of the modified word, and the degree of association is set higher as the two words are synonymous.

更に、話者に対して音声データを発信するための文章を生成する文章生成手段16Aは、予め設定された定型の文字列とテキストデータ格納装置15に格納された非定型の文字列を組み合わせて音声合成する。この文章生成手段16Aで生成された文章は、音声変換手段16Bを介して音声再生出力装置18へ送られ、この音声再生出力装置18から再生出力されるようになっている。   Further, the sentence generation means 16A for generating a sentence for transmitting voice data to the speaker combines a preset standard character string and an atypical character string stored in the text data storage device 15. Speech synthesis. The text generated by the text generation means 16A is sent to the voice reproduction output device 18 via the voice conversion means 16B, and is reproduced and output from the voice reproduction output device 18.

(第1実施形態の動作)
次に、上記第1実施形態の動作について説明する。
先ず、外部の話者から送り込まれる認識用の単語の音声は、音声入力装置11を介して音声データに変換され入力される(音声データ入力工程)。
(Operation of the first embodiment)
Next, the operation of the first embodiment will be described.
First, the speech of a recognition word sent from an external speaker is converted into speech data and input via the speech input device 11 (speech data input step).

次に、この入力された音声データは音声データ格納装置12に記憶され、続いて音声認識装置13によって認識される。同時に、この音声認識装置13は、この音声データに対応する同一の又は近似した単語データを、予め設定された記憶部である認識単語辞書13Aを検索して抽出し、この抽出された一又は2以上の単語データを優先度を決めて修飾語検索装置14へ送る(単語データ検索抽出工程)。   Next, the input voice data is stored in the voice data storage device 12 and subsequently recognized by the voice recognition device 13. At the same time, the voice recognition device 13 searches the extracted word word dictionary 13A, which is a preset storage unit, and extracts the same or approximate word data corresponding to the voice data. The above word data is determined in priority and sent to the modifier search device 14 (word data search and extraction step).

修飾語検索装置14では、これを受けて直ちに作動し単語データに対応した識別用の修飾語を予め設定された記憶部である修飾関係辞書14Aを検索して抽出し(修飾語検索抽出工程)、この抽出された単語と共にその識別用の修飾語をテキストデータ格納装置15へ送り込んで格納する。   In response to this, the modifier search device 14 operates immediately and searches and extracts the modifier relation dictionary 14A, which is a preset storage unit, corresponding to the word data (modifier search extraction step). Then, the modifier for identification and the extracted word are sent to the text data storage device 15 and stored.

続いて、このテキストデータ格納装置15に格納された単語およびその識別用の修飾語は、音声生成出力装置16に取得される。この音声生成出力装置16では、まず、文章生成手段16Aが作動し、送り込まれた単語データおよびその識別用の修飾語に基づいて文章形式の確認用定型文を生成する(確認用定型文生成工程)。   Subsequently, the words stored in the text data storage device 15 and the modifiers for identification thereof are acquired by the speech generation output device 16. In the voice generation / output device 16, first, the sentence generation unit 16 </ b> A operates to generate a confirmation sentence in the form of a sentence based on the sent word data and its modifier for confirmation (confirmation fixed sentence generation step). ).

続いて音声変換手段16Bが作動し、当該確認用定型文を音声データに変換して音声データ格納装置12へ格納し、続いて、音声再生出力装置18が作動して当該格納された確認用定型文は外部の話者に対して音声応答用として音声出力される(応答用音声出力工程)。   Subsequently, the voice conversion means 16B is operated to convert the confirmation template into voice data and store it in the voice data storage device 12, and then the voice reproduction output device 18 is operated to store the stored confirmation template. The sentence is output as a voice response to an external speaker (response voice output step).

次に、この外部出力された確認用定型文に対して外部の話者からその内容を否定する応答が音声入力装置11を介して入力された場合に機能し(否定応答入力工程)、前記音声認識装置13及び修飾語検索装置14が前記確認用定型文にかかる単語と同一の又は近似した単語データとその識別用の修飾語とを前記各記憶部からそれぞれ順次再抽出する。
そして、この再抽出された前記各単語データとその識別用の修飾語とに基づいて前記音声生成出力装置16が再び確認用定型文を生成した後、音声再生出力装置18を介して外部出力する(確認用定型文出力工程)。
Next, it functions when a response for denying the content from the outside speaker is input via the voice input device 11 to the externally output fixed phrase for confirmation (negative response input step). The recognition device 13 and the modifier search device 14 sequentially re-extract the word data that is the same as or approximate to the word related to the confirmation fixed sentence and the modifier for identification from each storage unit.
Based on the re-extracted word data and its identifying modifier, the voice generation / output device 16 generates a confirmation standard sentence again, and then externally outputs it via the voice reproduction / output device 18. (Confirmed fixed phrase output process).

この外部出力に対して又は最初の確認用定型文の音声出力に対して、外部の話者からそれを肯定する応答が入力された場合に機能し(肯定応答入力工程)、前記入力された前記音声が認識された旨を表示した確認用定型文を、前記音声生成変換装置16が生成し音声再生出力装置18を介して肯定応答に対する音声応答用として外部出力される(確認用定型文出力工程)。   This function works when an external speaker receives a positive response to the external output or the first confirmation phrase sentence voice output (acknowledgment input step). The confirmation standard sentence displaying the fact that the voice has been recognized is generated by the voice generation / conversion device 16 and externally output as a voice response to an affirmative response via the voice reproduction output device 18 (confirmation fixed sentence output step) ).

ここで、前述した単語データとその識別用の修飾語とを記憶部から抽出するに際しては、上述したように、単語データが予め記憶された一方の記憶部(認識単語辞書13A)から先ず単語データを抽出し、これに基づいて他方の記憶部(修飾関係辞書14A)からその識別用の修飾語を検索し抽出する。
又、識別用修飾語の抽出に際しては、本実施形態では予め設定された関連度の大きい修飾語から順次選択し抽出するようにした。
Here, when extracting the above-described word data and its identifying modifier from the storage unit, as described above, first, the word data from one storage unit (recognized word dictionary 13A) in which the word data is stored in advance. Based on this, the modifier for identification is searched and extracted from the other storage unit (modification relation dictionary 14A).
In addition, when extracting the modifier for identification, in this embodiment, preset modifiers having a high degree of association are selected and extracted sequentially.

次に、上記動作内容を、図3に基づいて更に具体的に説明する。
ここで、音声入力装置11は、電話器のマイクロホンを介して通話する先方の通話相手(話者)を対象とするように構成されているものとする。
Next, the details of the operation will be described more specifically with reference to FIG.
Here, it is assumed that the voice input device 11 is configured to target the other party (speaker) who talks via the microphone of the telephone.

最初に、音声データ格納装置12に予め格納されている対話開始の音声データを、話者(本システムに対して電話をかけてくる話者)に送信する。
例えば、話者に対して、音声再生出力装置18から「単語を発生して下さい」と発信し、通話相手に対して、音声による入力を促す(ステップS101)。
First, the conversation start voice data stored in advance in the voice data storage device 12 is transmitted to a speaker (a speaker who makes a call to the system).
For example, the voice reproduction output device 18 sends a message “Please generate a word” to the speaker, and prompts the other party to input by voice (step S101).

これに対して、話者は「いち」という発声をしたとすると、その話者の「いち」なる発声音は音声入力装置11から取り込まれて音声データに変換され、音声データ格納装置12に格納される(ステップS102)。   On the other hand, if the speaker utters “1”, the utterance sound of “1” of the speaker is taken from the voice input device 11 and converted into voice data and stored in the voice data storage device 12. (Step S102).

次に、音声認識装置13が音声データ格納装置12に格納された音声データを解析し、図2に示す認識単語辞書13A内のサンプルから候補となる同一の単語データ「一(単語IDの「1」、読みの「いち」)」と近似した単語データ「道(単語IDの「2」、読みの「みち」)」とを抽出する。この場合、優先度は「道」、「一」の順とする。   Next, the voice recognition device 13 analyzes the voice data stored in the voice data storage device 12, and the same word data “one (word ID“ 1 ”) is selected from the samples in the recognition word dictionary 13A shown in FIG. ", Reading" 1 ")" and the word data "way (word ID" 2 ", reading" Michi ")" are extracted. In this case, the priority is in the order of “Road” and “One”.

続いて、修飾語検索装置14では、修飾関係辞書14Aを参照し、「道(単語ID:「2」)」と最も関連の高い「道路(単語IDの「5」)」と、「一(単語IDの「1」)」と最も関連の高い「一つ(単語単語IDの「4」)」を選択し取得する。   Subsequently, the modifier search device 14 refers to the modifier relation dictionary 14A, and “road (word ID“ 5 ”)”, which is most related to “road (word ID:“ 2 ”)”, “one ( Select and acquire “one (word word ID“ 4 ”)” that is most relevant to the word ID “1”).

それぞれの関連語が同じ単語だった場合は、次に、関連度の高い単語を取得する。
例えば、図6に示すように、認識単語の候補が「いち」と「しち」それぞれの関連語が「数字」で一致した場合、復唱しても「いち」と「しち」の判別ができない。このため、次に関連度の数値が高い関連語を、選択する。
If each related word is the same word, a word having a high degree of relevance is acquired next.
For example, as shown in FIG. 6, when the recognition word candidates “ichi” and “shichi” are related by “numbers”, it is possible to distinguish between “ichi” and “shichi” even if they are repeated. Can not. For this reason, the related word having the next highest relevance value is selected.

この場合、修飾語検索装置14は、「道(単語IDの「2」)」と最も関連の高い「道路(単語IDの「5」)」を選択し、テキストデータ格納装置15に格納する。
一方、「しち」については、関連度の高い「数字」が一致するため、次に関連度の高い「ひとつ」「なな」が選択されるように組み込まれている(図6参照)。
In this case, the modifier search device 14 selects “road (word ID“ 5 ”)” having the highest relationship with “road (word ID“ 2 ”)” and stores it in the text data storage device 15.
On the other hand, “shichi” is incorporated such that “one” and “nanana” with the next highest degree of association are selected because “numbers” with the highest degree of association match (see FIG. 6).

ここで、効果的な修飾関係辞書の構築についてその一例を開示する。
例えば、意味のある単語の場合は、図4乃至図5に示すように、国語辞書や類義語辞書を利用して、予め準備された関連する単語を抽出するようにする。図4に、その場合の一例で、先ず、「いち」なる音声の入力に対して図5に示す国語辞書から複数の単語「数」「一つ」を抽出した場合を示す(図4:ステップS201)。この場合、抽出した単語「数」「一つ」について国語辞書で調べる(図4:ステップS202)。複数の単語が見いだされた場合、相互に同じ意味を有するか否かを特定し関連度を決める(図4:ステップS203)。
Here, an example of the construction of an effective modification relation dictionary will be disclosed.
For example, in the case of a meaningful word, as shown in FIG. 4 to FIG. 5, a related word prepared in advance is extracted using a national language dictionary or a synonym dictionary. FIG. 4 shows an example of such a case. First, a case where a plurality of words “number” and “one” are extracted from the Japanese language dictionary shown in FIG. S201). In this case, the extracted words “number” and “one” are examined in the national language dictionary (FIG. 4: step S202). When a plurality of words are found, whether or not they have the same meaning is specified and the degree of association is determined (FIG. 4: step S203).

一方、意味のない文字、例えば漢字の場合には、読み又は部首を修飾語として予め登録するとよい。例えば「ロウ」とういう漢字を認識した際に「郎」と「朗」の候補があった場合、「『ほがらか』の『ロウ』でよろしいですか?」「『おおざと』の『ロウ』でよろしいですか?」といった復唱が可能となる。又、ひらがな1文字の場合は、「『あいうえお』の『あ』でよろしいですか?」、「『カ行二段』の『い』でよろしいですか?」といった修飾語を登録するようにするとよい。   On the other hand, in the case of a meaningless character, for example, a Chinese character, the reading or radical may be registered in advance as a modifier. For example, when the kanji “low” is recognized and there are candidates for “ro” and “ro”, “do you want to be“ low ”in“ Hagara ”?” ““ Low ”in“ Ozora ” Can you repeat it? Also, if you have a single hiragana character, you can register modifiers such as “Are you sure of“ Aiueo ”?” Or “Are you sure of“ Ka ”? Good.

説明を元に戻す。
次に、文章生成手段16Aは、テキストデータ格納装置15からテキストデータを定型文にあてはめて「『道路』の『みち』でよろしいですか?」という文章を生成する。
Restore the description.
Next, the sentence generation unit 16A applies the text data from the text data storage device 15 to the fixed sentence, and generates a sentence “Are you sure you want to“ Michi ”in“ Road ”?”.

次に、音声変換手段16Bが作動し、この文章生成手段16Aで生成された文章を音声データに変換し、音声データ格納装置12に格納する。
そして、最後に、音声再生出力装置18が作動して音声データ格納装置12に格納された音声データ「『道路』の『みち』でよろしいですか?」を出力し、受話器を介して話者に送信する(ステップS103)。
Next, the voice conversion means 16B is activated, and the text generated by the text generation means 16A is converted into voice data and stored in the voice data storage device 12.
Finally, the voice reproduction output device 18 is activated to output the voice data “Are you sure you want to“ Michi ”of“ Road ”?” Stored in the voice data storage device 12, and to the speaker via the handset. Transmit (step S103).

このステップS103の処理に続いて、話者から「いいえ」という発声が送られてきた場合、音声入力装置11は話者の「いいえ」という発声を音声データに変換し、音声データ格納装置12に格納する(ステップS104)。
続いて、音声認識装置13が音声データ格納装置12に格納された音声データを解析し、この「いいえ」を認識する。
Following the processing of step S103, when a utterance “No” is sent from the speaker, the voice input device 11 converts the utterance “No” of the speaker into voice data, and stores it in the voice data storage device 12. Store (step S104).
Subsequently, the voice recognition device 13 analyzes the voice data stored in the voice data storage device 12 and recognizes this “No”.

次に、音声認識装置13の「いいえ」の認識に対応して修飾語検索装置14が作動し、「道」の次に優先度の高かった「一(単語IDの1)」と最も関連の高い「一つ(単語IDの4)」をテキストデータ格納装置15に格納する。
この修飾語検索装置14の格納動作に続いて、文章生成手段16Aが作動し、テキストデータ格納装置15からテキストデータを定型文にあてはめて、「『一つ』の『いち』でよろしいですか?」という文章を生成する。
Next, the modifier search device 14 is activated in response to the recognition of “no” by the speech recognition device 13, and is most related to “one (word ID 1)” having the next highest priority after “road”. The high “one (word ID 4)” is stored in the text data storage device 15.
Subsequent to the storing operation of the modifier searching device 14, the sentence generating means 16A is operated, and the text data from the text data storing device 15 is applied to the fixed sentence, so that “Are you sure? Is generated.

次に、音声変換手段16Bは、文章生成手段16Aで生成された文章を入力して音声データに変換し、音声データ格納装置12に格納する。
そして、最後に、音声再生出力装置18が音声データ格納装置12に格納された音声データ「『一つ』の『いち』でよろしいですか?」を出力し、受話器を介して話者に送信する(ステップS105)。
Next, the voice conversion means 16B inputs the text generated by the text generation means 16A, converts it into voice data, and stores it in the voice data storage device 12.
Finally, the voice reproduction output device 18 outputs the voice data “Are you sure of“ one ”?” Stored in the voice data storage device 12 and sends it to the speaker via the receiver. (Step S105).

このステップS105の処理に続いて、話者から「はい」という発声が送られてきた場合、音声入力装置11は話者の「はい」という発声を音声データに変換し、音声データ格納装置12に格納する(ステップS106)。
続いて、音声認識装置13が音声データ格納装置12に格納された音声データを解析し、この「はい」を認識し特定する。
Following the processing of step S105, when a utterance “Yes” is sent from the speaker, the voice input device 11 converts the utterance “Yes” of the speaker into voice data and stores it in the voice data storage device 12. Store (step S106).
Subsequently, the voice recognition device 13 analyzes the voice data stored in the voice data storage device 12 and recognizes and identifies this “yes”.

次に、修飾語検索装置14は、音声認識装置13の認識結果を受けて「一(単語IDの1)」を最終認識結果と判断し、このテキストをテキストデータ格納装置15に格納する。続いて、文章生成手段16Aが作動し、テキストデータ格納装置15からテキストデータを定型文に当てはめて、「『いち』を認識しました」という文章を生成する。   Next, the modifier search device 14 receives the recognition result of the speech recognition device 13, determines “one (word ID 1)” as the final recognition result, and stores this text in the text data storage device 15. Subsequently, the sentence generation unit 16A operates to apply the text data from the text data storage device 15 to the standard sentence and generate a sentence “I recognized“ 1 ””.

次に、音声変換手段16Bは、上記文章生成手段16Aで生成された文章を音声データに変換し、音声データ格納装置12に格納する。
そして、最後に、音声再生出力装置18が作動して音声データ格納装置12に格納された音声データ「『いち』を認識しました」を出力し、受話器を介して話者に送信する(ステップS107)。
Next, the voice conversion unit 16B converts the sentence generated by the sentence generation unit 16A into voice data and stores the voice data in the voice data storage device 12.
Finally, the voice reproduction output device 18 operates to output the voice data “Ichi” has been recognized stored in the voice data storage device 12, and transmits it to the speaker via the receiver (step S107). ).

尚、前述した音声データ格納装置12には認識単語データ抽出制御部20Aが併設されており、この認識単語データ抽出制御部20Aを介して前記認識単語データは外部処理用として外部出力されるようになっている。   The voice data storage device 12 is provided with a recognition word data extraction control unit 20A, and the recognition word data is externally output for external processing via the recognition word data extraction control unit 20A. It has become.

ここで、上記実施形態の各動作にあって、各処理工程で各構成要素が実行する実行内容をプログラム化しコンピュータに実行させるように構成してもよい。   Here, in each operation of the above-described embodiment, the execution content executed by each component in each processing step may be programmed and executed by a computer.

〔第1実施形態の効果〕
本第1実施形態は、上述したように構成され動作するので、これによると、単語の認識に際しては、外部に居る話者に対して「修飾語+単語」の組み合わせを復唱し、「はい」又は「いいえ」の何れかの確認を促すようにし、そして、話者からの返事が「いいえ」の場合は、他の候補(第二候補)の「修飾語+短い単語」の組み合わせを復唱するようにしたので、「修飾語+単語」の限定した状態の組み合わせ文が復唱されて外部出力されることから、これに対する話者の応答もより明確なものとなり、これがため、同音意義の単語及び読みが類似する単語に対しても、修飾語が有効に機能して、これを話者は効率よく識別することが可能となるという他に類をみない優れた効果を得ることができる。
[Effects of First Embodiment]
Since the first embodiment is configured and operates as described above, according to this, when recognizing a word, a combination of “modifier + word” is repeated for an external speaker, and “Yes” is selected. Or, if the answer from the speaker is “no”, repeat the combination of “modifier + short word” of another candidate (second candidate). Since the limited combination sentence of “modifier + word” is read back and output externally, the speaker's response to this is also clearer. Even for words whose readings are similar, the modifier can function effectively, and the speaker can efficiently identify the modifier.

即ち、本第1実施形態によると、単語を誤認識する可能性を大幅に減らすことが可能となるり、復唱時に生じる話者側のミス、つまり音声応答システムが誤認識した結果を復唱しているにも係わらず話者が正しいと聞き間違える可能性、も同時に防ぐことができる。 この場合、本第1実施形態にあっては、修飾関係辞書に対して単語との関連性および一意性が高い修飾語を登録するほど、その認識効果を高め且つ処理時間を少なくすることが可能となっている。   That is, according to the first embodiment, it is possible to greatly reduce the possibility of misrecognizing a word, or to recite the result of a misrecognition by a voice response system, that is, a mistake on the speaker side that occurs during a repetition In spite of this, it is possible to prevent the possibility that the speaker is mistaken when the speaker is correct. In this case, according to the first embodiment, the higher the relevance and uniqueness of a modifier word registered in the modifier relation dictionary, the higher the recognition effect and the shorter the processing time. It has become.

〔第2の実施形態〕
次に、本発明の第2実施形態を図7乃至図9に基づいて説明する。
ここで、前述した第1実施形態における音声認識応答システムと同一構成部材については同一の符号を用いることとする。
[Second Embodiment]
Next, a second embodiment of the present invention will be described with reference to FIGS.
Here, the same code | symbol shall be used about the same component as the speech recognition response system in 1st Embodiment mentioned above.

この第2の実施形態では、図1に示す前述した第1の実施形態における音声認識装置13の音声データ入力段に構文解析手段を装備した点に特徴を有する。
具体的には、前述した図1に示す音声データ格納手段12と音声認識装置13との間に、前述した外部からの応答が修飾語を含む文章形式の応答であった場合に機能し当該応答内容の文章形式の構文を解析して特定の音声データとその修飾語データとこれらを連結する用語とに分ける構文解析手段23Aを装備した。
The second embodiment is characterized in that syntax analysis means is provided in the voice data input stage of the voice recognition apparatus 13 in the first embodiment described above shown in FIG.
Specifically, it functions between the voice data storage means 12 and the voice recognition device 13 shown in FIG. 1 described above and functions when the above-mentioned external response is a sentence-type response including a modifier. It is equipped with syntax analysis means 23A that analyzes the syntax of the text format of the content and divides it into specific speech data, its modifier data, and terms that connect them.

更に、この第2実施形態では、図1に開示した音声認識装置13に代えて、前述した構文解析手段23Aに対応して動作し得る機能を備えた音声認識装置23を採用した点に特徴を有する。   Further, the second embodiment is characterized in that, instead of the speech recognition device 13 disclosed in FIG. 1, a speech recognition device 23 having a function capable of operating in correspondence with the syntax analysis means 23A described above is employed. Have.

この音声認識装置23は、前述した図1に開示した音声認識装置13と同等の機能を有するほか、更に構文解析手段23Aから送られてくる特定の音声データとその修飾語データとを認識すると共に、当該認識され修飾語とこの修飾語で限定された特定の音声データに基づいて前記音声データに対応する単語データを検索し抽出する単語データ限定抽出機能を備えている。
その他の構成は前述した第1実施形態と同一となっている。
The voice recognition device 23 has a function equivalent to that of the voice recognition device 13 disclosed in FIG. 1 described above, and also recognizes specific voice data and its modifier data sent from the syntax analysis means 23A. And a word data limited extraction function for searching and extracting word data corresponding to the voice data based on the recognized modifier and the specific voice data limited by the modifier.
Other configurations are the same as those of the first embodiment described above.

次に、この第2実施形態の動作を説明する。
前述した第1実施形態にあって、音声再生出力装置18から出力された確認用定型文に対する外部(話者)からの応答が修飾語を含む文章形式の応答であった場合、音声入力装置11はこれを入力し音声データに変換して音声データ格納装置12に格納する。
Next, the operation of the second embodiment will be described.
In the first embodiment described above, when the response from the outside (speaker) to the confirmation fixed phrase output from the voice reproduction output device 18 is a sentence format response including a modifier, the voice input device 11 Is inputted, converted into voice data, and stored in the voice data storage device 12.

次に、この修飾語を含む文章形式の応答データが音声データ格納装置12に格納されると、直ちに構文解析手段23Aが機能して当該応答内容の文章形式の構文を解析し、特定の音声データとその修飾語データとこれらを連結する用語とに分ける動作を実行する。   Next, when the response data in sentence format including this modifier is stored in the voice data storage device 12, the syntax analysis unit 23A immediately functions to analyze the syntax of the sentence format of the response content, and the specific voice data And the modifier data and the term that connects them are executed.

続いて、この解析され特定された音声データとその修飾語データとに基づいて前記音声認識装置23の単語データ限定抽出機能が機能して、当該特定の音声データに対応する単語データを記憶部(認識単語辞書13A)を検索し、特定の音声データを抽出する。   Subsequently, the word data limited extraction function of the speech recognition device 23 functions based on the analyzed and specified speech data and its modifier data, and stores word data corresponding to the specific speech data in the storage unit ( The recognition word dictionary 13A) is searched and specific voice data is extracted.

これを図9に基づいて更に具体的に説明する。
この第2実施形態にあって、先ず、音声再生出力装置18から例えば「単語を発声して下さい」なる文章が出力されると(ステップS301)、これに応答して話者から、例えば「きゅう」が発声され入力されと場合を想定する(ステップS302)。この場合、音声再生出力装置18からは前述した第1実施形態の場合と同様に各部が機能して「『アルファベットのQ(きゅう)』でよろしいですか?」が出力される。即ち、「修飾語+単語」の組み合わせ文の復唱(出力)される(ステップS303)。
This will be described more specifically with reference to FIG.
In the second embodiment, first, for example, when a sentence “Please say a word” is output from the audio reproduction output device 18 (step S301), in response to this, for example, “Kyukyu” "Is spoken and input (step S302). In this case, each part functions from the audio reproduction output device 18 in the same manner as in the first embodiment described above, and “Are you sure you want to use“ Q of the alphabet ”?” Is output. That is, the combination sentence “modifier + word” is repeated (output) (step S303).

これに対し、話者からの返事として、「はい」「いいえ」だけでなく例えば「数字」又は「数字のきゅー」なる「修飾語」又は「修飾語+単語」の組み合わせが入力されると(ステップS304)、上述したように直ちに構文解析手段23Aが機能して「単語(名詞)」+「の」+「単語」、「単語(形容詞、形容動詞)」+「単語」の構文解析、及び2つの単語認識が実行される。   On the other hand, as a reply from the speaker, not only “Yes” and “No” but also a combination of “modifier” or “modifier + word” such as “numeral” or “numeral cue” is input. (Step S304), the parsing means 23A immediately functions as described above, and the syntax analysis of “word (noun)” + “no” + “word”, “word (adjective, adjective verb)” + “word” is performed. And two word recognitions are performed.

そして、修飾語検索装置14は、例えば音声認識装置23で認識された2つの単語が修飾関係(単語IDと関連単語ID)として登録されている単語を、認識結果として選択し、これを受けて音声生成変換手段1で生成された「『数字の9(きゅう)』でよろしいですか?」が音声再生出力装置から再び出力される(ステップS305)。即ち、「修飾語+単語」の組み合わせ文が復唱(出力)される。   Then, the modifier search device 14 selects, for example, a word in which two words recognized by the voice recognition device 23 are registered as a modifier relationship (word ID and related word ID) as a recognition result, and receives this. The voice reproduction output device again outputs “Are you sure you want to use the number 9” generated by the voice generation conversion means 1 (step S305)? That is, a combination sentence of “modifier + word” is repeated (output).

これに対して、話者から「はい」なる音声が入力されると(ステップS306)、前述した第1実施形態の場合と同様にシステム全体が対応して音声再生出力装置から「『きゅう』を認識しました」が出力され(ステップS307)、一連の単語認識動作が完了する。   On the other hand, when the voice “Yes” is input from the speaker (step S306), the entire system responds to ““ Kyu ”from the voice reproduction output device as in the case of the first embodiment described above. "Recognized" is output (step S307), and a series of word recognition operations are completed.

このようにすると、候補が複数あったとしても話者からの返事を1回受け付けるだけで認識結果を1つに絞ることが可能となる。
尚、ここで、音声認識装置23では、「修飾語+単語」の組み合わせが入力された場合に、「単語」だけを取り出して、以下前述した第1実施形態の場合と同様に当該単語データ処理(音声データ処理)を実行するように構成してもよい。
その他の構成およびその作用効果は、前述した第1実施形態と同様となっている。
In this way, even if there are a plurality of candidates, it is possible to narrow down the recognition result to one only by receiving a reply from the speaker once.
Here, in the speech recognition device 23, when a combination of “modifier + word” is input, only “word” is extracted, and the word data processing is performed as in the case of the first embodiment described below. You may comprise so that (audio | voice data processing) may be performed.
Other configurations and the effects thereof are the same as those of the first embodiment described above.

本発明にかかる第1実施形態は、上述したように、発声が似ている短い単語に対して対応する修飾語を図2(A)(B)のような形式の関係を予め登録しておき、単語認識の結果を復唱する際に、自動的に「修飾語」+「単語」の形式で情報を付加し、発話者に確認を求めるようにした。このため、単語の認識間違いを有効に軽減することができる。   In the first embodiment of the present invention, as described above, modifiers corresponding to short words with similar utterances are registered in advance in the form of relationships as shown in FIGS. When repeating the word recognition result, information is automatically added in the form of “modifier” + “word”, and confirmation is requested from the speaker. For this reason, word recognition errors can be effectively reduced.

又、上記各実施形態では、図2(B)に示すように、記憶部としての修飾関係辞書14Aを設け、一つの単語(被修飾語)に対し複数の修飾語を用意し、関連度を設定した(数値が大きい程関連度は高い)。更に、単語の修飾語を修飾関係辞書14Aから取得する際には、関連度が最も高い単語を選択するようにした。同時に、単語認識結果の候補が複数あり、各候補の修飾語が一致する場合には、それぞれ、次に関連度の高い修飾語を修飾関連辞書14Aから取得する方式を採用した。このため、単語の認識間違いを更に有効に軽減することができる。   Further, in each of the above embodiments, as shown in FIG. 2B, a modification relation dictionary 14A is provided as a storage unit, and a plurality of modifiers are prepared for one word (modified word), and the degree of association is set. Set (the higher the number, the higher the relevance). Furthermore, when acquiring the word modifier from the modifier relation dictionary 14A, the word having the highest degree of association is selected. At the same time, when there are a plurality of candidate word recognition results and the modifiers of the candidates match, a method of acquiring the modifier with the next highest degree of association from the modifier-related dictionary 14A is adopted. For this reason, it is possible to reduce word recognition errors more effectively.

そして、更に、第2実施形態では、話者に対する単語認識結果の復唱に対して、「はい」,「いいえ」だけでなく、「修飾語」又「修飾語+単語」の形式の発声を受け付けるように構成したので、音声認識装置13では構文解析手段23Aで構文解析された短い単語と修飾語の二つの単語を認識し、修飾語検索装置14では音声認識装置13で認識された二つの単語が修飾関係(単語IDと関連単語ID)として登録されている単語を選択するようにした。このため、単語の認識間違いを更に有効に軽減することができる。   Further, in the second embodiment, not only “Yes” and “No” but also a utterance in the form of “modifier” or “modifier + word” is accepted in response to the word recognition result for the speaker. Since the speech recognition device 13 recognizes two words, ie, a short word and a modifier, which are parsed by the syntax analysis unit 23A, the modifier recognition device 14 recognizes the two words recognized by the speech recognition device 13. Is selected as a modification relationship (word ID and related word ID). For this reason, it is possible to reduce word recognition errors more effectively.

このように、上記各実施形態にあっては、入力される短い単語の音声データに対してその識別処理を有効に実施し得るようにし、特に「修飾語+単語」の限定した状態の組み合わせ文を復唱して外部出力するようにしたので、これに対する話者の応答がより明確なものとすることができ、これがため、同音意義の単語及び読みが類似する単語に対しても、修飾語が有効に機能してこれを効率よく識別することが可能となるという他に類をみない優れた音声認識応答方法、音声認識応答システム、及びそのプログラムを得ることができる。   As described above, in each of the above embodiments, the identification processing can be effectively performed on the input voice data of a short word, and in particular, a combination sentence in a limited state of “modifier + word”. The speaker's response to this can be made clearer, so that modifiers can be applied to words with similar meaning and words with similar readings. It is possible to obtain a speech recognition response method, a speech recognition response system, and a program thereof that are unique and capable of effectively identifying and efficiently identifying the same.

本発明にかかる音声認識応答システムは、短い単語の音声認識、例えば数字、英字、ひらがな、漢字1文字、同音異義の単語等で、その認識を必要とする多くの分野で、それを有効利用することができる。   The speech recognition and response system according to the present invention effectively uses speech recognition of short words, for example, numbers, English letters, hiragana, a single kanji character, homonyms, etc., in many fields that require recognition. be able to.

10 音声認識応答システム
11 音声入力装置
12 音声データ格納装置
13,23 音声認識装置
13A 記憶部としての認識単語辞書
14 修飾語検索装置
14A 記憶部としての修飾関係辞書
15 テキストデータ格納装置
16 音声生成変換装置
16A 文章生成手段
16B 音声変換手段(音声データ変換手段)
18 音声再生出力手段
20 主制御部
20A 認識単語データ出力制御部
23A 構文解析手段
DESCRIPTION OF SYMBOLS 10 Speech recognition response system 11 Voice input device 12 Voice data storage device 13, 23 Speech recognition device 13A Recognition word dictionary as a storage unit 14 Modifier search device 14A Modification relation dictionary as a storage unit 15 Text data storage device 16 Speech generation conversion Device 16A Text generation means 16B Voice conversion means (voice data conversion means)
18 Voice reproduction output means 20 Main control section 20A Recognition word data output control section 23A Syntax analysis means

Claims (18)

外部から送り込まれる単語の音声を音声入力装置が音声データに変換して入力し、
この入力された音声データを音声認識装置が認識すると共に当該音声データに対応する同一の又は近似した単語データとその識別用の修飾語とを、前記音声認識装置及びこれに併設された修飾語検索装置が予め設定された記憶部からそれぞれ別々に検索して抽出し、
この抽出された単語およびその識別用の修飾語に基づいて音声生成出力装置が文章形式の確認用定型文を生成し音声再生装置を介して外部出力し、
この外部出力された確認用定型文に対して外部からその内容を否定する応答が入力された場合に機能して前記音声認識装置及び修飾語検索装置が他の同一の又は近似した単語データとその識別用の修飾語とを前記記憶部からそれぞれ再抽出し、
この再抽出された前記各単語データとその識別用の修飾語とに基づいて前記音声生成出力装置が再び確認用定型文を生成した後、音声再生出力装置を介して外部出力し、
前記確認用定型文に対して外部からそれを肯定する応答が入力された場合に機能して前記入力された前記音声が認識された旨を表示した確認用定型文を前記音声生成変換装置が生成し音声再生出力装置を介して外部出力するようにしたことを特徴とする音声認識応答方法。
The voice input device converts the voice of words sent from the outside into voice data and inputs it,
The voice recognition device recognizes the input voice data and searches for the same or similar word data corresponding to the voice data and a modifier for identifying the voice data by using the voice recognition device and the modifier word attached thereto. The device is separately searched and extracted from the preset storage unit,
Based on the extracted word and its modifier for identification, the speech generation and output device generates a standard sentence for confirmation in a sentence format and outputs it externally via the speech playback device,
The voice recognition device and the modifier search device function in the case where a response that denies the content is input from the outside with respect to the externally output confirmation fixed phrase, and the voice recognition device and the modifier search device and other same or approximate word data Re-extract the modifier for identification from the storage unit,
Based on the re-extracted word data and the modifier for identification, the speech generation output device again generates a confirmation standard sentence, and then externally outputs via the speech reproduction output device,
The voice generation / conversion device generates a confirmation standard sentence that indicates that the inputted voice has been recognized by functioning when a response is received from the outside to the confirmation standard sentence. And a voice recognition response method characterized in that it is externally output via a voice reproduction output device.
請求項1に記載の音声認識応答方法において、
前記単語データとその識別用の修飾語とを前記記憶部から抽出するに際しては、単語データが予め記憶された記憶部から単語データをまず抽出し、これに基づいて前記識別用の修飾語が記憶された記憶部から前記単語データに対応した識別用の修飾語を検索し抽出するようにしたことを特徴とする音声認識応答方法。
The speech recognition response method according to claim 1,
When extracting the word data and its identifying modifier from the storage unit, the word data is first extracted from the storage unit in which the word data is stored in advance, and based on this, the identifying modifier is stored. A speech recognition response method, wherein a modifier for identification corresponding to the word data is searched and extracted from the stored storage unit.
請求項2に記載の音声認識応答方法において、
前記識別用修飾語の抽出に際しては、予め設定された関連度の大きい修飾語から順次選択し抽出するようにしたことを特徴とする音声認識応答方法。
The speech recognition response method according to claim 2,
A voice recognition response method characterized in that, when extracting the modifier for identification, a preset modifier having a high degree of relevance is sequentially selected and extracted.
請求項1,2又は3に記載の音声認識応答方法において、
前記確認用定型文に対する外部からの応答が修飾語を含む文章形式の応答であった場合には、予め装備された構文解析手段が直ちに機能して前記応答内容の文章形式の構文を解析して特定の音声データとその修飾語データとこれらを連結する用語とに分ける動作を実行し、
続いて、この解析され特定された音声データとその修飾語データとに基づいて前記音声認識装置が前記特定の音声データに対応する単語データを前記記憶部を検索し抽出する単語データ限定抽出機能を実行するようにしたことを特徴とする音声認識応答方法。
The speech recognition response method according to claim 1, 2, or 3,
When the response from the outside to the confirmation standard sentence is a response in a sentence format including a modifier, the syntax analysis means equipped in advance immediately functions to analyze the sentence format syntax of the response content. Execute the operation to divide specific audio data, its modifier data, and the term that connects them,
Subsequently, based on this analyzed and specified voice data and its modifier data, the voice recognition device searches the storage unit for word data corresponding to the specific voice data and extracts a word data limited extraction function. A speech recognition response method characterized by being executed.
外部から送り込まれる単語の音声を音声データに変換し入力する音声入力装置と、この入力された音声データと同一又は近似した一又は二以上の単語データを予め設置された記憶部としての認識単語辞書を検索して抽出する音声認識装置と、この音声認識装置で抽出された前記音声データに対応する単語データを予め記憶されている文章形式の定型文に当てはめる音声生成変換装置と、この音声生成変換装置で生成出力される文章形式の音声データを音声に変換し外部出力する音声再生出力装置とを備え、
前記音声再生出力装置から外部出力された文章形式の音声データに対する肯定又は否定の音声が前記音声入力装置に外部入力された場合に、前記音声認識装置がこれに対処して所定の音声データ処理を実行する音声認識応答システムであって、
前記音声認識装置と音声生成変換装置との間に、前記単語データに直接関係する関連度の高い修飾語データが予め格納された記憶部としての修飾関係辞書を検索して関連度の高い順に前記修飾語データを抽出する修飾語検索装置を介装し、
前記音声生成変換装置が、前記修飾語検索装置で抽出された関連度の高い修飾語データを対応する前記単語データと合成して修飾語付定型文を生成し外部の話者との応答用として出力する修飾語合成出力機能を備えていることを特徴とした音声認識応答システム。
A speech input device that converts the speech of a word sent from the outside into speech data and inputs it, and a recognition word dictionary as a storage unit in which one or more word data that is the same as or similar to the input speech data is installed in advance A speech recognition device that retrieves and extracts the speech data, a speech generation conversion device that applies word data corresponding to the speech data extracted by the speech recognition device to a pre-stored fixed form sentence, and the speech generation conversion A voice reproduction output device that converts voice data in a sentence format generated and output by the device into voice and outputs it externally;
When an affirmative or negative voice is externally input to the voice input device with respect to sentence-format voice data output from the voice reproduction output device, the voice recognition device copes with this and performs predetermined voice data processing. A voice recognition response system to be executed,
Between the speech recognition device and the speech generation conversion device, a modifier relation dictionary as a storage unit in which modifier word data having a high degree of relation directly related to the word data is stored in advance is searched, and the order of the relation degree is high. Via a modifier search device that extracts modifier data,
The speech generation / conversion device synthesizes the modifier data with a high degree of relevance extracted by the modifier search device with the corresponding word data to generate a fixed phrase with a modifier and use it as a response with an external speaker A speech recognition response system characterized by having a modifier synthesis output function for outputting.
請求項5に記載の音声認識応答システムにおいて、
前記音声生成変換装置は、前記修飾語検索装置で抽出された関連度の高い修飾語データとこれに対応する前記単語データとを合成して修飾語付定型文を生成する文章生成手段と、この生成された修飾語付定型文を音声データに変換して出力する音声変換手段とにより構成したことを特徴とする音声認識応答システム。
The voice recognition response system according to claim 5,
The speech generation / conversion device synthesizes the modifier data having a high degree of relevance extracted by the modifier search device and the word data corresponding to the modifier data, and a sentence generator that generates a modifier fixed phrase, A speech recognition and response system, comprising: speech conversion means for converting the generated fixed phrase with modifiers into speech data and outputting the speech data.
請求項5に記載の認識応答システムにおいて、
前記認識単語辞書には、一の単語とその読みが同一となる複数の単語、及び前記一の単語とその読みが近似した複数の単語が、それぞれ予め検索可能に格納され、
前記修飾関係辞書には、前記各単語の読みに対応した関連度の高い複数の修飾語が、予め関連度が付されて検索可能に格納されていることを特徴とした音声認識応答システム。
The recognition response system according to claim 5,
In the recognition word dictionary, a plurality of words whose readings are the same as one word, and a plurality of words whose readings are similar to the one word are stored in advance so as to be searchable,
A speech recognition response system, wherein a plurality of modifiers having a high degree of association corresponding to the reading of each word are stored in the modification relation dictionary so as to be searchable with a degree of association beforehand.
請求項5に記載の音声認識応答システムにおいて、
前記認識単語辞書に格納された検索用の複数の各単語には、予めその識別記号である単語IDと、その読みと、名詞,動詞等を示す品詞とが付されて何れからでも検索可能に格納されていることを特徴とした音声認識応答システム。
The voice recognition response system according to claim 5,
A plurality of search words stored in the recognition word dictionary are preliminarily assigned with a word ID as an identification symbol, a reading thereof, and a part of speech indicating a noun, a verb, etc. A voice recognition response system characterized by being stored.
請求項5に記載の音声認識応答システムにおいて、
前記修飾関係辞書に格納された検索用の複数の各単語には、予めその識別記号である単語IDと、前記認識単語辞書に格納された関連する各単語の単語IDと、その関連度の度合いを表した数値とが付されて、何れからでも検索可能に格納されていることを特徴とした音声認識応答システム。
The voice recognition response system according to claim 5,
For each of the plurality of search words stored in the modification relation dictionary, a word ID that is an identification symbol in advance, a word ID of each related word stored in the recognition word dictionary, and a degree of the degree of association A voice recognition response system characterized in that a numerical value representing the above is attached and is stored so as to be searchable from any of them.
請求項7に記載の音声認識応答システムにおいて、
前記音声認識装置は、前記音声再生出力装置からの修飾語付定型文の音声データ出力後に前記音声入力装置に外部入力される音声データが、前記修飾語付定型文の記述を肯定する内容か否定する内容かを判定する可否判定機能を有すると共に、
前記修飾語検索装置は、前記音声認識装置の可否判定機能による否定判定に基づいて作動し前記音声データの修飾語付定型文の修飾語部分を前記関連度の値の次に高い値のものを選択して出力する機能を有し、
前記音声生成変換装置は、前記修飾語検索装置で抽出された関連度が次に高い修飾語データと前記抽出された単語データとを合成し修飾語付定型文として再出力する再合成出力機能を備えていることを特徴とした音声認識応答システム。
The voice recognition response system according to claim 7,
The speech recognition device determines whether the speech data externally input to the speech input device after outputting the speech data of the fixed phrase with a modifier from the speech reproduction output device confirms the description of the fixed phrase with the modifier It has a function to determine whether it is content to be
The modifier search device operates based on a negative determination by the availability determination function of the voice recognition device, and the modifier portion of the fixed phrase with a modifier in the speech data is the next highest value after the relevance value. It has a function to select and output,
The speech generation and conversion device has a resynthesizing output function for synthesizing the modifier data with the next highest degree of relevance extracted by the modifier search device and the extracted word data and re-outputting them as modifier fixed phrases. Voice recognition response system characterized by having.
請求項10に記載の音声認識応答システムにおいて、
前記音声生成変換装置は、前記音声認識装置による肯定判定に基づいて作動し前記音声データにかかる単語データが認識されたことを示す定型文として当該単語データを含む認識定型文を生成し変換出力する認識定型文出力機能を備えていることを特徴とした音声認識応答システム。
The speech recognition response system according to claim 10,
The speech generation / conversion device operates based on an affirmative determination by the speech recognition device, generates a recognition standard sentence including the word data as a standard sentence indicating that the word data related to the voice data has been recognized, and converts and outputs the recognition standard sentence. A speech recognition and response system characterized by having a recognition fixed sentence output function.
請求項5又は10に記載の音声認識応答システムにおいて、
前記音声認識装置の音声データ入力段に、前記確認用定型文に対する外部からの応答が修飾語を含む文章形式の応答であった場合に機能し当該応答内容の文章形式の構文を解析し特定の音声データとその修飾語データとこれらを連結する用語とに分ける構文解析手段を装備すると共に、
前記音声認識装置が、この構文解析手段から送られてくる特定の音声データとその修飾語データとを認識すると共に当該認識された複数のデータに基づいて前記音声データに対応する単語データを検索し抽出する限定単語データ抽出機能を備えていることを特徴とした音声認識応答システム。
The speech recognition response system according to claim 5 or 10,
Functions when the external response to the confirmation standard sentence is a sentence format response including a modifier, and analyzes the syntax of the sentence format of the response content to the voice data input stage of the speech recognition device Equipped with a syntax analysis means that divides speech data, its modifier data, and the terms that connect them,
The voice recognition device recognizes specific voice data and its modifier data sent from the syntax analysis means, and searches word data corresponding to the voice data based on the plurality of recognized data. A voice recognition response system characterized by having a limited word data extraction function for extraction.
請求項5又は10に記載の音声認識応答システムにおいて、
前記修飾語検索装置に、前記音声識別装置で選択抽出される単語データと前記修飾語検索装置にて抽出された修飾語データとをテキストデータとして記憶するテキストデータ格納装置を併設すると共に、
前記音声生成変換装置は、このテキストデータ格納装置に格納された単語データと前記修飾語データとを対象として前記修飾語合成機能を実行する構成としたこと特徴とする音声認識応答システム。
The speech recognition response system according to claim 5 or 10,
The modifier search device is provided with a text data storage device that stores the word data selected and extracted by the speech identification device and the modifier data extracted by the modifier search device as text data,
The speech recognition / response system, wherein the speech generation / conversion device is configured to execute the modifier synthesis function on word data and modifier data stored in the text data storage device.
請求項5又は10に記載の音声認識応答システムにおいて、
前記音声入力装置と前記音声識別装置との間に、前記音声入力装置で受信される音声情報を記憶する音声データ格納装置を介装すると共に、
前記音声再生出力装置と前記音声生成変換装置との間に、当該音声生成変換装置から出力される音声データを記憶する音声データ格納装置を介装したことを特徴とする音声認識応答システム。
The speech recognition response system according to claim 5 or 10,
An audio data storage device that stores audio information received by the audio input device is interposed between the audio input device and the audio identification device, and
A speech recognition / response system, wherein a speech data storage device for storing speech data output from the speech generation / conversion device is interposed between the speech reproduction / output device and the speech generation / conversion device.
音声入力装置を介して外部から入力される音声データを認識すると共に当該音声データに対応する同一又は近似した単語データを予め装備された認識単語辞書を検索して抽出する単語データ抽出処理機能、 前記単語データに付される前記音声データ識別用の修飾語を予め設定された修飾関係辞書を検索して抽出する修飾語抽出処理機能、 この抽出された単語データおよびその識別用の修飾語に基づいて文章形式の確認用定型文を生成する確認用定型文生成処理機能、 及びこの生成された確認用定型文を音声再生出力装置を介して確認用として外部出力する定型文出力制御処理機能、を有し、
この外部出力された確認用の定型文に対して外部からその内容を否定する応答が前記音声入力装置を介して入力された場合に機能して、前記音声データに対応する他の同一又は近似した単語データとその識別用の修飾語とを、前記単語データ抽出処理機能および修飾語抽出処理機能を稼働させて前記認識単語辞書および前記修飾関係辞書からそれぞれ再抽出すると共に、当該再抽出された単語データとその識別用の修飾語とに基づいて再び前記確認用定型文を生成する再抽出生成機能、
この再抽出され生成された確認用の定型文を音声再生出力装置を介して外部へ再出力する定型文再出力制御処理機能、を備え、
前記確認用の定型文に対して外部からそれを肯定する応答が入力された場合に機能して前記入力された前記音声が認識された旨を表示した確認用定型文を生成し音声再生出力装置を介して外部出力する応答確認処理機能を設け、
これらの各処理機能を、コンピュータに実行させるようにしたことを特徴とする音声認識応答プログラム。
A word data extraction processing function for recognizing voice data input from the outside via a voice input device and searching a recognition word dictionary preliminarily equipped with the same or similar word data corresponding to the voice data; Based on the extracted word data and the modifier for identifying the modifier, a modifier-related dictionary for searching for and extracting the modifier for identifying the voice data attached to the word data is extracted. Standard text generation processing function for confirmation that generates standard text for confirmation in sentence format, and standard text output control processing function that outputs the generated standard text for confirmation via the audio playback output device for confirmation And
It functions when a response that denies the content from the outside is input to the standard sentence for confirmation output from the outside via the voice input device, and the same or approximated other corresponding to the voice data The word data and the modifier for identification thereof are re-extracted from the recognized word dictionary and the modifier relation dictionary by operating the word data extraction processing function and the modifier extraction processing function, respectively, and the re-extracted word A re-extraction generation function for generating the confirmation fixed sentence again based on the data and its modifier for identification;
A fixed sentence re-output control processing function for re-outputting the re-extracted and generated fixed phrases for confirmation to the outside via the audio reproduction output device,
A voice reproduction output device that generates a confirmation standard sentence that indicates that the inputted voice has been recognized by functioning when an externally acknowledged response is input to the confirmation standard sentence A response confirmation processing function is provided for external output via
A speech recognition response program characterized by causing a computer to execute each of these processing functions.
請求項15に記載の音声認識応答プログラムにおいて、
前記単語データ抽出処理機能および修飾語抽出処理機能の実行に際しては、予め単語データとその識別用の修飾語とが記憶された記憶部からまず単語データを抽出すると共に、この抽出された単語データに基づいてその識別用の修飾語を検索し抽出するようにし、これを前記コンピュータに実行させるようにしたことを特徴とする音声認識応答プログラム。
The speech recognition response program according to claim 15,
When executing the word data extraction processing function and the modification word extraction processing function, first, word data is extracted from a storage unit in which word data and a modification word for identification thereof are stored in advance, and the extracted word data A speech recognition response program characterized in that a modifier for identification is searched and extracted based on this, and is executed by the computer.
請求項16に記載の音声認識応答プログラムにおいて、
前記修飾語抽出処理機能の実行に際しては、予め設定された関連度の大きい修飾語から順次選択し抽出処理するようにし、これを前記コンピュータに実行させるようにしたことを特徴とする音声認識応答プログラム。
The speech recognition response program according to claim 16,
When executing the modifier extraction processing function, a speech recognition response program characterized by sequentially selecting and extracting preset modifiers having a high degree of relevance, and causing the computer to execute the extraction processing. .
請求項15,16又は17に記載の音声認識応答プログラムにおいて、
前記確認用定型文に対する外部から応答が修飾語を含む文章形式の単語応答であった場合には、当該応答内容の文章形式の構文を解析する構文解析処理機能、 当該構文解析により特定された修飾語を含む複数の単語データを認識処理する複数単語認識処理機能、
当該修飾語を含む複数の単語データに基づいて前記音声データに対応する単語データを検索し抽出する限定単語データ抽出処理機能、を備え、
これらの各処理機能を前記コンピュータに実行させるようにしたことを特徴とする音声認識応答プログラム。
The speech recognition response program according to claim 15, 16 or 17,
When the response to the confirmation standard sentence is a word response in a sentence format including a modifier, the parsing processing function for analyzing the sentence format of the response content, the modification specified by the syntax analysis A multi-word recognition processing function for recognizing a plurality of word data including words,
A limited word data extraction processing function for searching and extracting word data corresponding to the voice data based on a plurality of word data including the modifier,
A speech recognition response program characterized by causing the computer to execute each of these processing functions.
JP2009042395A 2009-02-25 2009-02-25 Voice recognition response method, voice recognition response system and program therefore Withdrawn JP2010197709A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009042395A JP2010197709A (en) 2009-02-25 2009-02-25 Voice recognition response method, voice recognition response system and program therefore

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009042395A JP2010197709A (en) 2009-02-25 2009-02-25 Voice recognition response method, voice recognition response system and program therefore

Publications (1)

Publication Number Publication Date
JP2010197709A true JP2010197709A (en) 2010-09-09

Family

ID=42822493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009042395A Withdrawn JP2010197709A (en) 2009-02-25 2009-02-25 Voice recognition response method, voice recognition response system and program therefore

Country Status (1)

Country Link
JP (1) JP2010197709A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017203764A1 (en) * 2016-05-23 2017-11-30 ソニー株式会社 Information processing device and information processing method
WO2018100760A1 (en) 2016-12-02 2018-06-07 Cyberdyne株式会社 Upper limb motion assisting device and upper limb motion assisting system
WO2019123775A1 (en) * 2017-12-22 2019-06-27 ソニー株式会社 Information processing device, information processing system, information processing method, and program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017203764A1 (en) * 2016-05-23 2017-11-30 ソニー株式会社 Information processing device and information processing method
WO2018100760A1 (en) 2016-12-02 2018-06-07 Cyberdyne株式会社 Upper limb motion assisting device and upper limb motion assisting system
WO2019123775A1 (en) * 2017-12-22 2019-06-27 ソニー株式会社 Information processing device, information processing system, information processing method, and program
JPWO2019123775A1 (en) * 2017-12-22 2020-10-22 ソニー株式会社 Information processing equipment, information processing systems, information processing methods, and programs
JP7276129B2 (en) 2017-12-22 2023-05-18 ソニーグループ株式会社 Information processing device, information processing system, information processing method, and program

Similar Documents

Publication Publication Date Title
JP6251958B2 (en) Utterance analysis device, voice dialogue control device, method, and program
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US8407039B2 (en) Method and apparatus of translating language using voice recognition
US6839667B2 (en) Method of speech recognition by presenting N-best word candidates
EP1089193A2 (en) Translating apparatus and method, and recording medium used therewith
JP5824829B2 (en) Speech recognition apparatus, speech recognition method, and speech recognition program
US20150081270A1 (en) Speech translation apparatus, speech translation method, and non-transitory computer readable medium thereof
JP5703491B2 (en) Language model / speech recognition dictionary creation device and information processing device using language model / speech recognition dictionary created thereby
JP2009187349A (en) Text correction support system, text correction support method and program for supporting text correction
US7302381B2 (en) Specifying arbitrary words in rule-based grammars
KR100684160B1 (en) Apparatus and method for transaction analysis using named entity
EP3241123B1 (en) Voice recognition-based dialing
JP2010197709A (en) Voice recognition response method, voice recognition response system and program therefore
KR20110065916A (en) Interpretation system for error correction and auto scheduling
CN111768789A (en) Electronic equipment and method, device and medium for determining identity of voice sender thereof
CN116597809A (en) Multi-tone word disambiguation method, device, electronic equipment and readable storage medium
JP2021009253A (en) Program, information processing device, and information processing method
CN116052655A (en) Audio processing method, device, electronic equipment and readable storage medium
JP4220151B2 (en) Spoken dialogue device
US6772116B2 (en) Method of decoding telegraphic speech
KR102107447B1 (en) Text to speech conversion apparatus for providing a translation function based on application of an optional speech model and operating method thereof
CN110895938B (en) Voice correction system and voice correction method
WO2021130892A1 (en) Conversion table generation device, voice dialogue system, conversion table generation method, voice dialogue method, and recording medium
KR20120042381A (en) Apparatus and method for classifying sentence pattern of speech recognized sentence
JP4736423B2 (en) Speech recognition apparatus and speech recognition method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120501