JP2010085536A - Voice recognition system, voice recognition method, voice recognition client, and program - Google Patents

Voice recognition system, voice recognition method, voice recognition client, and program Download PDF

Info

Publication number
JP2010085536A
JP2010085536A JP2008252512A JP2008252512A JP2010085536A JP 2010085536 A JP2010085536 A JP 2010085536A JP 2008252512 A JP2008252512 A JP 2008252512A JP 2008252512 A JP2008252512 A JP 2008252512A JP 2010085536 A JP2010085536 A JP 2010085536A
Authority
JP
Japan
Prior art keywords
server
voice
voice recognition
client
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008252512A
Other languages
Japanese (ja)
Other versions
JP4902617B2 (en
Inventor
Toshiaki Furuya
利昭 古谷
Teruhiro Fukui
輝宏 福井
Hirotaka Furukawa
博崇 古川
Tetsuya Hamada
哲也 浜田
Takashi Suzuki
敬 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Fuetrek Co Ltd
Original Assignee
NTT Docomo Inc
Fuetrek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc, Fuetrek Co Ltd filed Critical NTT Docomo Inc
Priority to JP2008252512A priority Critical patent/JP4902617B2/en
Publication of JP2010085536A publication Critical patent/JP2010085536A/en
Application granted granted Critical
Publication of JP4902617B2 publication Critical patent/JP4902617B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a voice recognition system which achieves both large vocabulary continuous speech recognition and recognition of local individual words. <P>SOLUTION: A client 1 includes: a voice input part 11 for inputting a voice signal; and a transmission part 12 for transmitting data representing the voice signal to a server 3. The server 3 includes: a reception part 32 for receiving data representing the voice signal from the client 1; a voice recognition part 33 for performing voice recognition in accordance with data received by the reception part 32; and a transmission part 34 for transmitting a result of voice recognition in the voice recognition part 33 to the client 1. Furthermore, the client 1 includes: a reception part 13 for receiving the result of voice recognition from the server 3; a voice recognition part 14 for performing voice recognition of data representing the voice signal corresponding to the received voice recognition result by referring to the voice recognition result received from the server 3 by the reception part 13; and a selection part 17 for selecting a recognition result both from the voice recognition result received from the server 3 and from the result of voice recognition in the voice recognition part 14. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、音声認識システムに関する。より詳しくは、サーバとクライアントから構成される音声認識システムに関する。   The present invention relates to a speech recognition system. More specifically, the present invention relates to a speech recognition system composed of a server and a client.

通信ネットワーク上の装置間における音声データ音声認識性能を向上するために、サーバとクライアントにより構成される音声認識システムがある。例えば、特許文献1の音声認識通信システムは、音声信号を入力しその音声信号を示す音声情報をパケットとしてネットワーク回線に出力する音声入力装置と、ネットワーク回線を介して伝送されたパケットを受信して音声認識を行う音声認識装置とを備える。音声入力装置は、互いに信頼性の程度が異なる少なくとも2種類の通信プロトコルのうちのいずれか1のプロトコルにてパケットを送信し、音声認識装置は、伝送されてきたパケットを1の通信プロトコルに従って受信する。   There is a voice recognition system including a server and a client in order to improve voice data voice recognition performance between apparatuses on a communication network. For example, the voice recognition communication system of Patent Document 1 receives a voice input device that inputs a voice signal and outputs voice information indicating the voice signal as a packet to a network line, and a packet transmitted through the network line. A voice recognition device that performs voice recognition. The voice input device transmits a packet using one of at least two types of communication protocols having different degrees of reliability, and the voice recognition device receives the transmitted packet according to the one communication protocol. To do.

特許文献2には、クライアントとサーバとの間のデータ転送量を抑えながら音声認識を行う技術が記載されている。特許文献2の技術では、クライアントは、音声処理ユニットで特徴パラメータを圧縮符号化し、インタフェースで圧縮符号化された特徴パラメータを伝送する。サーバは、インタフェースで圧縮符号化された特徴パラメータを受信し、音声処理ユニットで圧縮符号化された特徴パラメータを音声認識する。   Patent Document 2 describes a technique for performing speech recognition while suppressing a data transfer amount between a client and a server. In the technique of Patent Document 2, the client compresses and encodes the feature parameter by the voice processing unit, and transmits the feature parameter compressed and encoded by the interface. The server receives the feature parameter compressed and encoded by the interface, and recognizes the feature parameter compressed and encoded by the speech processing unit.

サーバとクライアントにより構成される音声認識システムにおいて問題とされる、サーバ側CPUの負荷上昇と、クライアントとサーバとの間のネットワーク帯域の負荷上昇とを解決する音声認識システムの技術がある。例えば、特許文献3の音声認識システムでは、クライアントは入力された音声データに対して1次音声認識を試み、1次音声認識により音声認識できた場合はその音声認識結果をサーバに伝送し、音声認識できない場合はその音声データをサーバに伝送しサーバがその音声データに対して2次音声認識を行う。   There is a technology of a voice recognition system that solves a problem of a load increase of a server-side CPU and a load increase of a network bandwidth between a client and a server, which are problems in a voice recognition system including a server and a client. For example, in the speech recognition system of Patent Document 3, the client attempts primary speech recognition on input speech data, and if speech recognition is possible by primary speech recognition, transmits the speech recognition result to a server, If the voice data cannot be recognized, the voice data is transmitted to the server, and the server performs secondary voice recognition on the voice data.

特開2001−142488号公報JP 2001-142488 A 特開2001−337695号公報JP 2001-337695 A 特開2004−12653号公報JP 2004-12653 A

通話などにおける音声認識では、一般的な会話(大語彙)について通常話すスピード(連続)で音声認識することが望まれる。汎用に音声によってデータを入力する場合、例えば、口述筆記、話し言葉の分析または音声通訳などのためには、大語彙連続音声認識が必要である。大語彙連続音声認識は、高い演算処理能力が必要であり、演算能力と記憶容量が限られるクライアントでは困難である。   In speech recognition in a call or the like, it is desired to recognize speech at a normal speaking speed (continuous) for general conversation (large vocabulary). When inputting data by voice for general use, large vocabulary continuous voice recognition is necessary, for example, for dictation writing, spoken word analysis or voice interpretation. Large vocabulary continuous speech recognition requires high computing power and is difficult for clients with limited computing power and storage capacity.

一方、固有名詞などの局所的個別に使われる語彙は、文脈依存(コンテキストディペンデント)であってかつクライアントに固有の語が多く、サーバで認識するには限界がある。そこで、音声認識結果を必要とするクライアントの限られた演算処理能力に対応しながら、サーバに登録されていない未知の単語で音声認識の精度が劣化することを抑制することが求められる。   On the other hand, vocabularies used locally and individually such as proper nouns are context-dependent and have many words specific to the client, and there is a limit to how they can be recognized by the server. Therefore, it is required to suppress degradation of speech recognition accuracy with unknown words that are not registered in the server, while corresponding to the limited arithmetic processing capability of the client that requires the speech recognition result.

本発明は、上述のような状況に鑑みてなされたものであり、大語彙連続音声認識と局所的個別の語の認識を両立させる音声認識システムを提供することを目的とする。   The present invention has been made in view of the above situation, and an object of the present invention is to provide a speech recognition system that achieves both large vocabulary continuous speech recognition and local individual word recognition.

上記目的を達成するため、本発明の第1の観点に係る音声認識システムは、サーバとクライアントから構成される音声認識システムであって、前記クライアントは、音声信号を入力する音声入力手段と、前記音声信号を示すデータをサーバに送信する送信手段と、を備え、前記サーバは、前記クライアントから音声信号を示すデータを受信するサーバ受信手段と、前記サーバ受信手段で受信したデータから音声認識するサーバ音声認識手段と、前記サーバ音声認識手段で音声認識した結果を前記クライアントに送信するサーバ送信手段と、を備え、前記クライアントはさらに、前記サーバから前記音声認識した結果を受信する受信手段と、前記受信手段で前記サーバから受信した前記音声認識した結果を参照して、前記受信した音声認識結果に対応する前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、を備える、ことを特徴とする。   In order to achieve the above object, a speech recognition system according to a first aspect of the present invention is a speech recognition system including a server and a client, wherein the client includes speech input means for inputting a speech signal, Transmitting means for transmitting data indicating an audio signal to a server, wherein the server receives a server receiving means for receiving data indicating the audio signal from the client, and a server for recognizing voice from the data received by the server receiving means Voice recognition means, and server transmission means for sending the result of voice recognition by the server voice recognition means to the client, the client further receiving means for receiving the voice recognition result from the server; The received voice recognition result with reference to the voice recognition result received from the server by the receiving means A voice recognition means for recognizing the corresponding data indicating the transmitted voice signal; a selection means for selecting a recognition result from a voice recognition result received from the server; and a result of voice recognition by the voice recognition means; , Comprising.

本発明によれば、サーバによって連続的な音声認識を行いながら、局所的個別の語についても音声認識できる。   According to the present invention, it is possible to perform speech recognition on local individual words while performing continuous speech recognition by the server.

好ましくは、前記サーバ音声認識手段は、前記音声信号を示すデータから、文節区切り位置および文節の属性を表すデータを含む文節情報を抽出し、前記サーバ送信手段は、前記文節情報を前記クライアントに送信し、前記クライアントの音声認識手段は、前記サーバから受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する。   Preferably, the server speech recognition means extracts phrase information including data representing a phrase break position and a phrase attribute from data indicating the voice signal, and the server transmission means transmits the phrase information to the client. Then, the voice recognition unit of the client refers to the phrase information received from the server and recognizes the voice of the data indicating the transmitted voice signal.

その結果、クライアント側の音声認識の効率を向上することができる。   As a result, the efficiency of voice recognition on the client side can be improved.

好ましくは、前記文節情報は、文節に含まれる単語の品詞を表すデータを含み、前記クライアントの音声認識手段は、前記サーバから受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する。   Preferably, the phrase information includes data representing a part of speech of a word included in the phrase, and the voice recognition unit of the client refers to data representing a part of speech of the phrase information received from the server, and transmits the transmitted voice Voice recognition is performed on data indicating a signal.

それによって、クライアント側の音声認識の精度を向上させることができる。   Thereby, the accuracy of voice recognition on the client side can be improved.

好ましくは、前記サーバ音声認識手段は、前記音声信号を示すデータから音声認識した結果のうち、未知語の属性を推定し、前記サーバ送信手段は、前記サーバ音声認識手段で推定した未知語の属性を前記クライアントに送信し、前記クライアントの音声認識手段は、前記サーバから受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて音声認識する。   Preferably, the server speech recognition unit estimates an attribute of an unknown word among results of speech recognition from the data indicating the speech signal, and the server transmission unit estimates the attribute of the unknown word estimated by the server speech recognition unit. Is transmitted to the client, and the voice recognition means of the client refers to the attribute of the unknown word received from the server and performs voice recognition on the data indicating the transmitted voice signal.

クライアントでは、サーバの未知語の属性を参照して音声認識するので、クライアントの音声認識の処理動作を速くすることができる。その結果、未知語について音声認識の効率を向上することができる。   Since the client recognizes the voice by referring to the unknown word attribute of the server, the voice recognition processing operation of the client can be speeded up. As a result, the efficiency of speech recognition can be improved for unknown words.

好ましくは、前記クライアントの音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に音声認識を行う。   Preferably, the voice recognition unit of the client performs voice recognition when a voice recognition result received from the server meets a predetermined condition.

これによって、音声認識にかかるクライアントの負荷を軽減することができる。   As a result, it is possible to reduce the load on the client for voice recognition.

好ましくは、前記クライアントは、前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が1つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも2つ以上の候補を表示する表示手段と、前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、を備え、前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する。   Preferably, when the speech recognition result received from the server and the speech recognition result by the speech recognition means have a plurality of candidates for one word, the client preferably has at least two candidates among the plurality of candidates. Display means for displaying and an input means for receiving a command for selecting at least one of the candidates displayed by the display means, wherein the selection means is based on the selection command input by the input means. To select the recognition result.

これによって、ユーザの判断でより正確に音声認識結果を選択できる。   Thereby, the voice recognition result can be selected more accurately by the user's judgment.

好ましくは、前記クライアントは、前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送し、前記サーバ音声認識手段は、前記クライアントから受信した特徴パラメータを用いて音声認識する。   Preferably, the client includes an extraction unit that extracts a feature parameter of speech input by the input unit, and the transmission unit transmits the feature parameter extracted by the extraction unit to the server, and the server speech recognition unit Recognizes speech using feature parameters received from the client.

これによって、クライアントとサーバとの間のデータ転送量を抑えることができる。   As a result, the amount of data transferred between the client and the server can be suppressed.

本発明の第2の観点に係る音声認識方法は、サーバとクライアントから構成される音声認識システムにおける音声認識方法であって、前記クライアントで、音声信号を入力する音声入力ステップと、前記音声信号を示すデータをサーバに送信する送信ステップと、前記サーバで、前記クライアントから音声信号を示すデータを受信するサーバ受信ステップと、前記サーバ受信ステップで受信したデータから音声認識するサーバ音声認識ステップと、前記サーバ音声認識ステップで音声認識した結果を前記クライアントに送信するサーバ送信ステップと、前記クライアントで、前記サーバから前記音声認識した結果を受信する受信ステップと、前記受信ステップで受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識ステップと、前記サーバから受信した音声認識結果と、前記音声認識ステップで音声認識した結果と、から認識結果を選択する選択ステップと、を備えることを特徴とする。   A speech recognition method according to a second aspect of the present invention is a speech recognition method in a speech recognition system composed of a server and a client, wherein a speech input step of inputting a speech signal at the client; A transmission step of transmitting data to the server, a server reception step of receiving data indicating a voice signal from the client at the server, a server voice recognition step of recognizing voice from the data received at the server reception step, Refer to the server transmission step for transmitting the result of speech recognition in the server speech recognition step to the client, the reception step for receiving the speech recognition result from the server at the client, and the speech recognition result received in the reception step. The data indicating the transmitted audio signal To the speech recognizing speech recognition step, and the speech recognition result received from the server, characterized in that it comprises a selection step of selecting the result of the speech recognition, the recognition result from by the speech recognition step.

本発明の第3の観点に係る音声認識クライアントは、音声信号を入力する音声入力手段と、前記音声信号を示すデータをサーバに送信する送信手段と、前記サーバから音声認識した結果を受信する受信手段と、前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、を備えることを特徴とする。   A voice recognition client according to a third aspect of the present invention includes a voice input unit that inputs a voice signal, a transmission unit that transmits data indicating the voice signal to a server, and a reception that receives a result of voice recognition from the server. The speech recognition result received from the server, and the speech recognition means with respect to the data indicating the transmitted speech signal, with reference to the speech recognition result received by the means and the reception means. And a selection means for selecting a recognition result from the result of speech recognition.

好ましくは、前記受信手段は、前記サーバから、文節区切り位置および文節の属性を表すデータを含む文節情報を受信し、前記音声認識手段は、前記受信手段で受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する。   Preferably, the receiving means receives phrase information including data representing a phrase break position and a phrase attribute from the server, and the speech recognition means refers to the phrase information received by the receiving means, and Voice recognition is performed on data indicating the transmitted voice signal.

好ましくは、前記文節情報は、前記文節に含まれる単語の品詞を表すデータを含み、 前記音声認識手段は、前記受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する。   Preferably, the phrase information includes data representing a part of speech of a word included in the phrase, and the speech recognition unit indicates the transmitted voice signal with reference to data representing a part of speech of the received phrase information. Recognize voice for data.

好ましくは、前記受信手段は、前記サーバから受信した音声認識結果のうちの未知語の属性を受信し、前記音声認識手段は、前記受信手段で受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて、音声認識する。   Preferably, the receiving unit receives an attribute of an unknown word in the speech recognition result received from the server, and the speech recognition unit refers to the attribute of the unknown word received by the receiving unit, and Voice recognition is performed on data indicating the transmitted voice signal.

好ましくは、前記音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に、音声認識を行う。   Preferably, the voice recognition means performs voice recognition when a voice recognition result received from the server meets a predetermined condition.

好ましくは、前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が1つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも2つ以上の候補を表示する表示手段と、前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、を備え、前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する。   Preferably, when the speech recognition result received from the server and the speech recognition result by the speech recognition means have a plurality of candidates for one word, a display for displaying at least two candidates among the plurality of candidates And an input means for receiving a command for selecting at least one of the candidates displayed by the display means, wherein the selection means is configured to recognize the recognition based on the selection command input by the input means. Select a result.

好ましくは、前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送する。   Preferably, an extraction unit that extracts a feature parameter of speech input by the input unit is provided, and the transmission unit transmits the feature parameter extracted by the extraction unit to the server.

本発明の第4の観点に係るプログラムは、コンピュータを、音声信号を入力する音声入力手段と、前記音声信号を示すデータをサーバに送信する送信手段と、前記サーバから音声認識した結果を受信する受信手段と、前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段として機能させることを特徴とする。   A program according to a fourth aspect of the present invention receives a result of speech recognition from a server, a voice input means for inputting a voice signal, a transmission means for transmitting data indicating the voice signal to a server, and the computer. Receiving means, referring to a voice recognition result received by the receiving means, voice recognition means for recognizing the data indicating the transmitted voice signal, a voice recognition result received from the server, and the voice recognition means And a result of the voice recognition performed in step (1), and a selection means for selecting a recognition result from the result.

本発明の音声認識システムによれば、サーバによって連続的な音声認識を行いながら、局所的個別の語についても音声認識できる。   According to the speech recognition system of the present invention, it is possible to recognize speech even for individual local words while performing continuous speech recognition by the server.

以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付す。本発明で音声認識とは、音声言語から、話している内容を文字データとして取り出す処理である。   Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In the drawings, the same or corresponding parts are denoted by the same reference numerals. In the present invention, speech recognition is a process of extracting the content being spoken as character data from a speech language.

(実施の形態1)
図1は、本発明の実施の形態1に係る音声認識システムの構成を示すブロック図である。図1に示すように、音声認識システムは、クライアント1と、サーバ3から構成される。クライアント1とサーバ3は、図示しないネットワークを介して通信する。図1ではクライアント1を代表して1台で示す。サーバ3に複数のクライアント1が通信可能である。
(Embodiment 1)
FIG. 1 is a block diagram showing a configuration of a speech recognition system according to Embodiment 1 of the present invention. As shown in FIG. 1, the voice recognition system includes a client 1 and a server 3. The client 1 and server 3 communicate via a network (not shown). In FIG. 1, a single client 1 is shown as a representative. A plurality of clients 1 can communicate with the server 3.

クライアント1は、音声を入力し、音声のデータをサーバ3に送信する。サーバ3は、受信した音声データから音声認識して、その結果をクライアント1に送信する。クライアント1は、サーバ3から受信した音声認識結果を参照して、同じ音声データについて音声認識する。そして、複数の音声認識結果から音声の部分ごとに適切な認識結果を選択する。   The client 1 inputs voice and transmits voice data to the server 3. The server 3 recognizes the voice from the received voice data and transmits the result to the client 1. The client 1 refers to the voice recognition result received from the server 3 and performs voice recognition on the same voice data. Then, an appropriate recognition result is selected for each voice portion from the plurality of voice recognition results.

クライアント1は、制御部10、音声入力部11、送信部12、受信部13、音声認識部14、表示部15、入力部16、選択部17、マイク21、表示装置22および入力装置23から構成される。音声入力部11、送信部12、受信部13、音声認識部14、表示部15、入力部16および選択部17は、内部バス20を介して制御部10に接続される。マイク21は音声入力部11に接続される。表示装置22は表示部15に接続される。入力装置23は、キーボードまたはテンキーと、マウスまたは十字カーソルキーと決定キーなどを備え、入力部16に接続される。制御部10は、クライアント1全体を制御する。   The client 1 includes a control unit 10, a voice input unit 11, a transmission unit 12, a reception unit 13, a voice recognition unit 14, a display unit 15, an input unit 16, a selection unit 17, a microphone 21, a display device 22, and an input device 23. Is done. The voice input unit 11, the transmission unit 12, the reception unit 13, the voice recognition unit 14, the display unit 15, the input unit 16, and the selection unit 17 are connected to the control unit 10 via the internal bus 20. The microphone 21 is connected to the audio input unit 11. The display device 22 is connected to the display unit 15. The input device 23 includes a keyboard or a numeric keypad, a mouse or a cross cursor key, an enter key, and the like, and is connected to the input unit 16. The control unit 10 controls the entire client 1.

また、サーバ3は、制御部31、受信部32、音声認識部33および送信部34から構成される。受信部32、音声認識部33および送信部34は、内部バス30を介して制御部31に接続される。受信部32は、クライアント1の送信部12からネットワーク(図示せず)を介してデータを受信する。送信部34は、ネットワークを介してクライアント1の受信部13にデータを送信する。制御部31は、サーバ3全体を制御する。   The server 3 includes a control unit 31, a reception unit 32, a voice recognition unit 33, and a transmission unit 34. The reception unit 32, the voice recognition unit 33, and the transmission unit 34 are connected to the control unit 31 via the internal bus 30. The receiving unit 32 receives data from the transmitting unit 12 of the client 1 via a network (not shown). The transmission unit 34 transmits data to the reception unit 13 of the client 1 via the network. The control unit 31 controls the entire server 3.

音声入力部11は、マイク21から入力した音声信号をA−D変換し、音声データを生成する。音声入力部11は、さらに、音声データを圧縮符号に変換してもよい。サーバ3に送信される音声のデータは、音声信号をA−D変換したデータ、さらに符号化したデータ、または、音声から音声認識する処理の最初のステップで抽出する特徴量データの場合がある。以下の説明では、それらを総称して音声データという。   The voice input unit 11 A / D converts the voice signal input from the microphone 21 to generate voice data. The voice input unit 11 may further convert the voice data into a compressed code. The voice data transmitted to the server 3 may be data obtained by performing A / D conversion on a voice signal, further encoded data, or feature amount data extracted in the first step of voice recognition processing from voice. In the following description, they are collectively referred to as audio data.

音声入力部11は、音声データを送信部12に送る。また、同じ音声データを音声認識部14に送る。送信部12は、音声データをサーバ3に送信する。   The voice input unit 11 sends voice data to the transmission unit 12. The same voice data is sent to the voice recognition unit 14. The transmission unit 12 transmits the audio data to the server 3.

サーバ3の受信部32は、クライアント1の送信部12から音声データを受信する。受信部32は、クライアント1から受信した音声データを音声認識部33に送る。音声認識部33は、受信した音声データから音声認識して、文字列に変換する。   The reception unit 32 of the server 3 receives audio data from the transmission unit 12 of the client 1. The receiving unit 32 sends the voice data received from the client 1 to the voice recognition unit 33. The voice recognition unit 33 recognizes voice from the received voice data and converts it into a character string.

音声認識では、一般に、音声の音響的な特徴と言語的な特徴を分離して扱うことが多い。音響的な特徴を用いて、認識対象の音素が有する周波数特性に基づいて、音素を抽出する。音響的な特徴を表す音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデルが広く用いられている。   In speech recognition, in general, acoustic features and linguistic features of speech are often handled separately. Using the acoustic features, phonemes are extracted based on the frequency characteristics of the phonemes to be recognized. As a representation of an acoustic model representing an acoustic feature, a hidden Markov model with a mixed normal distribution as an output probability is widely used.

言語的な特徴である、音素の並び方に関する制約を表す言語モデルまたはルールグラマを用いて、また辞書データを参照して文節または単語を判別する。このとき、文節の時間情報も取得する。   A phrase or word is discriminated by using a language model or rule grammar representing restrictions on how to arrange phonemes, which is a linguistic feature, and referring to dictionary data. At this time, the phrase time information is also acquired.

音声認識部33は、音声認識の用途に応じて、大語彙連続音声認識または少語彙単語音声認識などを用いることができる。一般の発話の音声認識では、大語彙連続音声認識が望ましい。   The speech recognition unit 33 can use large vocabulary continuous speech recognition, small vocabulary word speech recognition, or the like according to the purpose of speech recognition. In general speech recognition, large vocabulary continuous speech recognition is desirable.

音声認識部33は、音声認識した結果を送信部34に送る。ここで、音声認識の結果には、文節の区切り位置の情報を含む。また、音声認識の結果には、文節の属性、例えば、漢字かカタカナかなどの文字種、単語の品詞または文節時間などの情報を含む場合がある。送信部34は、音声認識の結果をクライアント1に送信する。   The voice recognition unit 33 sends the result of voice recognition to the transmission unit 34. Here, the result of speech recognition includes information on the segment break position. In addition, the result of speech recognition may include information on phrase attributes, for example, character type such as kanji or katakana, word part of speech, or phrase time. The transmission unit 34 transmits the result of speech recognition to the client 1.

クライアント1の受信部13は、サーバ3から音声認識の結果を受信して、音声認識部14に送る。音声認識部14では、サーバ3の音声認識結果を参照して、同じ音声データについて音声認識を行う。音声認識部14でも、サーバ3の音声認識部33と同様に、音声認識の用途に応じた適切な音声認識方法を採用できる。また、サーバ3の音声認識部33とは異なる音声認識方法を用いることができる。サーバ3の音声認識結果のうち、例えば、文節の区切り位置を用いて、文節ごとに孤立音声認識を行うことができる。   The reception unit 13 of the client 1 receives the result of speech recognition from the server 3 and sends it to the speech recognition unit 14. The voice recognition unit 14 performs voice recognition on the same voice data with reference to the voice recognition result of the server 3. Similarly to the voice recognition unit 33 of the server 3, the voice recognition unit 14 can employ an appropriate voice recognition method according to the purpose of voice recognition. Further, a voice recognition method different from the voice recognition unit 33 of the server 3 can be used. Of the speech recognition results of the server 3, for example, isolated speech recognition can be performed for each phrase by using the segment break position.

クライアント1の音声認識では、話者、分野および文脈などが限定できる。また、音声認識部14に局所的個別の語を登録できるので、固有名詞や話者特有の表現について、認識精度を高めることができる。後述するように、サーバ3の音声認識結果またはユーザが入力した語句から選択して、音声認識部14に単語を登録することによって、クライアント1の音声認識をユーザの使用内容に適合するように学習させることができる。音声認識部14は、サーバ3から受信した音声認識結果と、音声認識部14で行った音声認識の結果を表示部15に送る。   In the speech recognition of the client 1, speakers, fields, contexts, and the like can be limited. In addition, since local individual words can be registered in the speech recognition unit 14, recognition accuracy can be improved for proper nouns and speaker-specific expressions. As will be described later, by selecting a speech recognition result of the server 3 or a word input by the user and registering the word in the speech recognition unit 14, the speech recognition of the client 1 is learned so as to be adapted to the usage content of the user. Can be made. The speech recognition unit 14 sends the speech recognition result received from the server 3 and the result of speech recognition performed by the speech recognition unit 14 to the display unit 15.

表示部15は、サーバ3と音声認識部14の音声認識結果を表示装置22に表示する。ここで、2つの音声認識結果で同じ語については併合して表示し、認識結果が異なる語については並記する。また、それぞれの音声認識結果に複数の候補がある場合は、それらを表示してもよい。   The display unit 15 displays the voice recognition results of the server 3 and the voice recognition unit 14 on the display device 22. Here, the same words in the two speech recognition results are merged and displayed, and the words having different recognition results are written side by side. Moreover, when there are a plurality of candidates in each speech recognition result, they may be displayed.

入力部16は、表示した音声認識結果の異なる語について、入力装置23から選択する指示の入力を受け付ける。また、認識結果が不明の語または認識誤りなどの語について、ユーザの文字入力を受け付ける。そして、選択する指示および文字入力を選択部17に送る。選択部17は、音声認識結果の複数の候補がある語について、語を確定する。選択部17は、認識結果のうち単語ごとに尤度の高い方の結果を選択してもよい。   The input unit 16 accepts an input of an instruction to select from the input device 23 for words with different displayed speech recognition results. Moreover, a user's character input is received about words with an unknown recognition result or words, such as a recognition error. Then, an instruction to select and a character input are sent to the selection unit 17. The selection unit 17 determines a word for a word having a plurality of speech recognition result candidates. The selection unit 17 may select a result having a higher likelihood for each word among the recognition results.

選択部17は、選択して確定した結果を表示部15から表示する。選択部17で選択して確定した認識結果は、表示部15で表示されるほか、電子メールやメモなどの入力として用いることができる。選択した結果または文字入力によって音声認識部14の辞書データを更新してもよい。サーバ3の音声認識結果またはユーザが入力した語句から選択して、音声認識部14に単語を登録することによって、クライアント1の音声認識をユーザの使用内容に適合するように学習させることができる。   The selection unit 17 displays the result of selection and confirmation from the display unit 15. The recognition result selected and confirmed by the selection unit 17 is displayed on the display unit 15 and can be used as an input for an e-mail or a memo. The dictionary data of the voice recognition unit 14 may be updated according to the selected result or character input. By selecting words from the speech recognition result of the server 3 or words inputted by the user and registering the words in the speech recognition unit 14, the voice recognition of the client 1 can be learned so as to be adapted to the usage contents of the user.

図2は、音声認識の結果の例を示す。図2において、DSR(Distributed Speech Recognition)は、サーバ3の音声認識を表す。また、LSR(Local Speech Recognition)は、クライアント1側の音声認識を表す。特徴量の抽出は、クライアント1で行って、特徴量をサーバ3に送信してもよいし、クライアント1とサーバ3でそれぞれ独立に行ってもよい。   FIG. 2 shows an example of the result of speech recognition. In FIG. 2, DSR (Distributed Speech Recognition) represents voice recognition of the server 3. LSR (Local Speech Recognition) represents voice recognition on the client 1 side. The feature amount may be extracted by the client 1 and the feature amount may be transmitted to the server 3, or may be independently performed by the client 1 and the server 3.

発話「ワタシハシマニイキマス。」について、サーバ3では、「私/は/島/に/活き/ます/。」と認識したことが示されている。認識結果の下の文節時間情報の数字は、発話音声の開始からの時間を秒で表したものである。   It is shown that the server 3 recognizes “I / is / island / ni / live / is /.” With respect to the utterance “I am Hashimaniikimasu”. The number of the phrase time information below the recognition result represents the time from the start of the speech voice in seconds.

クライアント1では、サーバ3から受信した音声認識結果の文節時間情報を参照して、音声を分割し、分割した部分ごとに孤立音声認識する。その結果、「綿/は/志摩/に/行き/マリ」と認識されたことが示されている。   The client 1 divides the voice with reference to the phrase time information of the voice recognition result received from the server 3, and recognizes the isolated voice for each divided part. As a result, it is shown that “cotton / ha / shima / ni / go / mari” was recognized.

図3は、音声認識結果の表示と認識結果選択の例を示す。音声と認識結果については、図2の例を用いている。サーバ3の音声認識結果とクライアント1の音声認識結果の同じ語についてはマージして表示し、異なる語について並記する(図3の上から3つめの枠)。   FIG. 3 shows an example of displaying a speech recognition result and selecting a recognition result. The example of FIG. 2 is used for voice and recognition results. The same words in the voice recognition result of the server 3 and the voice recognition result of the client 1 are displayed in a merged manner, and different words are written side by side (the third frame from the top in FIG. 3).

ユーザは表示された認識結果を見て、正しい方を選択する。ユーザが選択することで、認識結果が確定する。その結果、「私は志摩に行きます。」が選択されることが示されている。ユーザは、選択キー(十字カーソルキーなど)と決定キーで、認識結果の候補を選択・決定するという簡単な操作で、所望のテキストデータを得ることができる。   The user sees the displayed recognition result and selects the correct one. The recognition result is confirmed by the user's selection. As a result, “I will go to Shima” is selected. The user can obtain desired text data by a simple operation of selecting and determining a recognition result candidate using a selection key (such as a cross cursor key) and a determination key.

クライアント1の音声認識部14の辞書にユーザごとの局所的個別の語を登録しておくことにより、サーバ3で一般的な単語として認識されていた似たような発音の語であっても、局所的個別の語を認識結果の候補として選択肢に表示できる。また、サーバ3の音声認識結果またはユーザが入力した語句から選択して、音声認識部14に単語を登録することによって、クライアント1の音声認識をユーザの使用内容に適合するように学習させることができる。その結果、クライアント1側に固有の語が含まれた発話内容でも、より正確に音声認識できる。   By registering local individual words for each user in the dictionary of the voice recognition unit 14 of the client 1, even a similar pronunciation word recognized as a general word by the server 3, Local individual words can be displayed in the choices as recognition result candidates. Further, by selecting a speech recognition result of the server 3 or a word inputted by the user and registering a word in the speech recognition unit 14, the speech recognition of the client 1 can be learned so as to be adapted to the use contents of the user. it can. As a result, speech recognition can be performed more accurately even for utterance contents including words unique to the client 1 side.

図4は、実施の形態1に係る音声認識システムの動作の一例を示すフローチャートである。まず、クライアント1の音声入力部11で音声を入力し(ステップS11)、送信部12から音声データをサーバ3に送信する(ステップS12)。   FIG. 4 is a flowchart illustrating an example of the operation of the speech recognition system according to the first embodiment. First, a voice is input by the voice input unit 11 of the client 1 (step S11), and the voice data is transmitted from the transmission unit 12 to the server 3 (step S12).

サーバ3では、受信部32で音声データを受信すると(ステップT11)、音声認識部33で音声認識処理を行う(ステップT12)。そして、送信部34で音声認識結果をクライアント1に送信する(ステップT13)。   In the server 3, when the voice data is received by the receiving unit 32 (step T11), the voice recognition unit 33 performs voice recognition processing (step T12). Then, the speech recognition result is transmitted to the client 1 by the transmission unit 34 (step T13).

クライアント1の受信部13が、サーバ3から音声認識結果を受信すると(ステップS13)、音声認識部14はそれを参照して音声認識処理を行う(ステップS14)。表示部15は、サーバ3とクライアント1の音声認識結果を表示する(ステップS15)。   When the receiving unit 13 of the client 1 receives the speech recognition result from the server 3 (step S13), the speech recognizing unit 14 performs a speech recognition process with reference to the result (step S14). The display unit 15 displays the speech recognition results of the server 3 and the client 1 (step S15).

入力部16でユーザの選択入力を受け付け(ステップS16)、選択部17は、入力された指示に従って認識結果を選択して確定する(ステップS17)。   The input unit 16 receives a selection input from the user (step S16), and the selection unit 17 selects and confirms the recognition result according to the input instruction (step S17).

以上説明したように、本実施の形態1の音声認識システムによれば、サーバ3によって連続的な音声認識を行いながら、局所的個別の語についても音声認識できる。その結果、音声認識率を向上することができる。また、サーバ3の音声認識結果を参照することによって、クライアント1側の音声認識の効率を向上することができる。   As described above, according to the speech recognition system of the first embodiment, it is possible to perform speech recognition on local individual words while performing continuous speech recognition by the server 3. As a result, the voice recognition rate can be improved. Further, by referring to the voice recognition result of the server 3, the voice recognition efficiency on the client 1 side can be improved.

その他、実施の形態1の音声認識システムでは以下の効果がある。共通で使われる語彙や言語モデルまたはルールグラマはサーバ3に反映し、個別の単語やルールについてクライアント1側に反映することによって、サーバ3とクライアント1それぞれのリソースを有効に利用できる。また、サーバ3の音声認識結果またはユーザが入力した語句から選択して、音声認識部14に単語を登録することによって、クライアント1の音声認識をユーザの使用内容に適合するように学習させることができる。そして、クライアント1側の音声認識辞書の更新が、サーバ3側に影響を与えることがなく、システムの柔軟性が高い。   In addition, the speech recognition system of Embodiment 1 has the following effects. Commonly used vocabularies, language models, or rule grammars are reflected on the server 3, and individual words and rules are reflected on the client 1 side, so that the resources of the server 3 and the client 1 can be used effectively. Further, by selecting a speech recognition result of the server 3 or a word inputted by the user and registering a word in the speech recognition unit 14, the speech recognition of the client 1 can be learned so as to be adapted to the use contents of the user. it can. And the update of the voice recognition dictionary on the client 1 side does not affect the server 3 side, and the flexibility of the system is high.

さらに、クライアント1の音声認識部14で使用する音声認識のモデル、すなわち、音響モデル、言語モデルおよび辞書などは、ユーザによって任意に変更可能である。クライアント1の音声認識モデルを、音声認識の対象に合わせて設定することによって、音声認識の精度と効率を向上することができる。   Furthermore, the speech recognition model used by the speech recognition unit 14 of the client 1, that is, the acoustic model, the language model, the dictionary, and the like can be arbitrarily changed by the user. By setting the voice recognition model of the client 1 according to the target of voice recognition, the accuracy and efficiency of voice recognition can be improved.

本発明の音声認識システムでは、クライアント1側の処理能力に合わせて、クライアント1側の音声認識アルゴリズムを選択することができる。例えば、クライアント1側の処理能力が低い場合は、孤立音声認識を用いることができる。また、クライアント1側の処理能力が高い場合は、連続音声認識を用いてもよい。   In the speech recognition system of the present invention, the speech recognition algorithm on the client 1 side can be selected in accordance with the processing capability on the client 1 side. For example, when the processing capability on the client 1 side is low, isolated voice recognition can be used. If the processing capability on the client 1 side is high, continuous speech recognition may be used.

(実施の形態1の変形例1)
図5は、品詞情報を用いる場合の認識結果選択の例を示す。図5の音声認識対象の発話は「アノヒトガケンジデス。」である。サーバ3からは、「ケンジ」について普通名詞の「検事」が音声認識結果として送信されたことが示されている。
(Modification 1 of Embodiment 1)
FIG. 5 shows an example of recognition result selection when part-of-speech information is used. The speech of the speech recognition target in FIG. 5 is “Anohito Gakenzides.” From the server 3, it is shown that “prosecutor” of the common noun “kenji” is transmitted as a voice recognition result.

クライアント1では、例えば、文節ごとに音声認識した結果、「ケンジ」について固有名詞の「健二」が候補になったとする。サーバ3の認識結果が普通名詞で、クライアント1の音声認識結果が固有名詞の場合、選択部17は、固有名詞のクライアント1の認識結果を選択する。   In the client 1, for example, it is assumed that the proper noun “Kenji” is a candidate for “Kenji” as a result of speech recognition for each phrase. When the recognition result of the server 3 is a common noun and the speech recognition result of the client 1 is a proper noun, the selection unit 17 selects the recognition result of the proper noun client 1.

品詞の情報を参照することによって、クライアント1側の音声認識の精度を向上させることができる。   By referring to the part-of-speech information, the accuracy of voice recognition on the client 1 side can be improved.

(実施の形態1の変形例2)
図6は、未知語の情報を用いる場合の認識結果選択の例を示す。未知語とは、音声認識部33に登録されている単語に、音声に対応する単語がないことをいう。音声認識部33は、音声認識の結果、未知語と判断した場合に、その単語が備えるであろう品詞の情報を属性として認識する場合がある。また、未知語は音素の列が認識できていることが多く、その音素に対応する文字列が漢字を含むか、カタカナを含むかという情報を属性として認識できる場合がある。音声認識部33は、それらの未知語の属性をクライアント1に送信する。
(Modification 2 of Embodiment 1)
FIG. 6 shows an example of recognition result selection when unknown word information is used. An unknown word means that the word registered in the voice recognition unit 33 has no word corresponding to the voice. If the speech recognition unit 33 determines that the word is an unknown word as a result of the speech recognition, the speech recognition unit 33 may recognize the part of speech information that the word will have as an attribute. Further, in many cases, unknown words can recognize phoneme strings, and information on whether a character string corresponding to the phoneme includes kanji or katakana may be recognized as an attribute. The voice recognition unit 33 transmits the attributes of these unknown words to the client 1.

図6の音声認識対象の発話は「アノヒトガタチモリデス。」である。サーバ3からは、「タチモリ」についてサーバ3に登録されていない未知語であることが、音声認識結果として送信されている。   The speech of the speech recognition target in FIG. 6 is “Anohito Katachimorides.” From the server 3, it is transmitted as a speech recognition result that “Tachimori” is an unknown word that is not registered in the server 3.

クライアント1では、音声認識した結果、「タチモリ」について固有名詞の「日月」が候補になったとする。サーバ3の認識結果が未知語なので、選択部17は、クライアント1の認識結果を選択する。   As a result of the voice recognition in the client 1, it is assumed that the proper noun “Sun Moon” is a candidate for “Tachimori”. Since the recognition result of the server 3 is an unknown word, the selection unit 17 selects the recognition result of the client 1.

サーバ3から受信した音声認識結果の未知語ないしは尤度が低い語に限って、クライアント1で音声認識を行ってもよい。サーバ3の認識結果が未知語でない場合には、その認識結果が確からしいと考えられ、その場合にクライアント1で音声認識を行わないことにより、クライアント1の音声認識の処理動作を早くすることができる。また、サーバ3の認識結果が未知語である場合には、その認識結果が確からしくないと考えられるため、その場合にクライアント1で音声認識を行うことにより、音声認識率が向上しうる。サーバ3から受信した未知語の品詞などの情報を参照することによって、属性を限定することができるので、クライアント1の音声認識の処理動作を速くすることができる。図6の例は、局所的個別の語についてクライアント1で音声認識率が向上しうることを示している。   The client 1 may perform speech recognition only for unknown words or words with low likelihood of the speech recognition result received from the server 3. If the recognition result of the server 3 is not an unknown word, it is considered that the recognition result is probable. In this case, the client 1 does not perform voice recognition, thereby speeding up the voice recognition processing operation of the client 1. it can. Further, when the recognition result of the server 3 is an unknown word, the recognition result is considered to be inaccurate. In this case, the speech recognition rate can be improved by performing speech recognition with the client 1. By referring to information such as the part of speech of the unknown word received from the server 3, the attribute can be limited, so that the voice recognition processing operation of the client 1 can be speeded up. The example of FIG. 6 shows that the speech recognition rate can be improved at the client 1 for local individual words.

以上説明したように、実施の形態1の音声認識システムによれば、全体として、音声認識速度の向上が見込まれる。   As described above, according to the speech recognition system of the first embodiment, the speech recognition speed can be improved as a whole.

なお、クライアント1の音声認識部14は、実態としてサーバ3側にあってもよい。例えば、クライアント1毎のエージェントまたはモジュールとして、サーバ3に組み込まれてもよい。音声認識部14は、クライアント1毎の音声認識辞書とルールグラマがサーバ3のデータとして格納され、共通のモジュールがクライアント1毎のプロセスとしてサーバ3で実行されるような構成とすることもできる。その場合、サーバ3の送信部34は、音声認識部33の音声認識結果および/または音声認識部14の音声認識結果を送信する。クライアント1の受信部13は、音声認識部33の音声認識結果および/または音声認識部14の音声認識結果を受信して、クライアント1でいずれかを選択するか、あるいは、音声認識部33の音声認識結果および/または音声認識部14から選択された音声認識結果を受信する。   Note that the voice recognition unit 14 of the client 1 may actually be on the server 3 side. For example, the server 3 may be incorporated as an agent or module for each client 1. The voice recognition unit 14 may be configured such that a voice recognition dictionary and rule grammar for each client 1 are stored as data of the server 3, and a common module is executed by the server 3 as a process for each client 1. In that case, the transmission unit 34 of the server 3 transmits the speech recognition result of the speech recognition unit 33 and / or the speech recognition result of the speech recognition unit 14. The reception unit 13 of the client 1 receives the voice recognition result of the voice recognition unit 33 and / or the voice recognition result of the voice recognition unit 14, and selects either the client 1 or the voice of the voice recognition unit 33. The recognition result and / or the voice recognition result selected from the voice recognition unit 14 is received.

同様に、サーバ3の音声認識部33をクライアント1に組み込む構成とすることができる。その場合、送信部12、受信部32、送信部34および受信部13の間のデータのやりとりは、装置内部のデータ伝送またはプロセス間の通信である。音声認識部33がクライアント1にある場合、それはバックエンドプロセッサまたは音声認識処理のコア部分として考えることができる。音声認識部14は、ユーザごとの辞書またはルールグラマを実現する部分と捉えることができる。   Similarly, the voice recognition unit 33 of the server 3 can be incorporated into the client 1. In this case, data exchange among the transmission unit 12, the reception unit 32, the transmission unit 34, and the reception unit 13 is data transmission within the apparatus or communication between processes. When the speech recognition unit 33 is in the client 1, it can be considered as a back-end processor or a core part of speech recognition processing. The voice recognition unit 14 can be regarded as a part that realizes a dictionary or rule grammar for each user.

(実施の形態2)
図7は、実施の形態2に係る音声認識システムの構成を示すブロック図である。実施の形態2では、クライアント1に結果判定部18を備える。
(Embodiment 2)
FIG. 7 is a block diagram showing the configuration of the speech recognition system according to the second embodiment. In the second embodiment, the client 1 includes a result determination unit 18.

結果判定部18は、サーバ3の音声認識結果を調べて、音声認識部14で音声認識するかどうかを判断する。例えば、サーバ3から音声認識した結果の単語ごとに、その確からしさを表す尤度が送信される場合、尤度が所定のしきい値以上の場合には、その単語について音声認識部14では音声認識をしない。   The result determination unit 18 examines the voice recognition result of the server 3 and determines whether or not the voice recognition unit 14 recognizes the voice. For example, when the likelihood representing the likelihood is transmitted for each word as a result of the speech recognition from the server 3, when the likelihood is equal to or greater than a predetermined threshold, the speech recognition unit 14 performs speech for the word. Do not recognize.

音声認識部14で音声認識するか否かは、尤度、未知語もしくは品詞またはそれらを複合した条件を用いて判断することができる。例えば、図6のような場合に、未知語のみについて、クライアント1の音声認識部14で音声認識処理を行ってもよい。また、品詞情報が普通名詞の場合と固有名詞の場合で、しきい値となる尤度を変えてもよい。   Whether or not speech recognition is performed by the speech recognition unit 14 can be determined using likelihood, unknown word or part of speech, or a condition that combines them. For example, in the case shown in FIG. 6, the voice recognition process may be performed by the voice recognition unit 14 of the client 1 for only unknown words. In addition, the likelihood as a threshold value may be changed depending on whether the part of speech information is a common noun or a proper noun.

図8は、実施の形態2に係る音声認識システムの動作の一例を示すフローチャートである。クライアント1の音声入力(ステップS21)から認識結果受信(ステップS23)の処理は、図4の動作と同様である。図8の例では、サーバ3は、尤度の情報を含む認識結果をクライアント1に送信する。   FIG. 8 is a flowchart showing an example of the operation of the speech recognition system according to the second embodiment. The process of receiving the recognition result (step S23) from the voice input (step S21) of the client 1 is the same as the operation of FIG. In the example of FIG. 8, the server 3 transmits a recognition result including likelihood information to the client 1.

クライアント1の結果判定部18は、サーバ3の音声認識結果を調べ(ステップS24)、単語ごとに尤度が閾値より小さければ(ステップS25;YES)、その文節について音声認識部14で音声認識する(ステップS26)。尤度が閾値以上であれば(ステップS25;NO)、音声認識処理を行わない。   The result determination unit 18 of the client 1 examines the speech recognition result of the server 3 (step S24), and if the likelihood is smaller than a threshold for each word (step S25; YES), the speech recognition unit 14 recognizes the speech for the phrase. (Step S26). If the likelihood is equal to or greater than the threshold (step S25; NO), the speech recognition process is not performed.

音声認識すべき音声データの残りがあれば(ステップS27;YES)、次の語について結果判定部18で音声認識結果を調べる。音声データの残りがなければ(ステップS27;NO)、認識結果の表示を行う(ステップS28)。以降の処理は、図4の動作と同様である。   If there is remaining voice data to be voice-recognized (step S27; YES), the result determination unit 18 checks the voice recognition result for the next word. If there is no remaining voice data (step S27; NO), the recognition result is displayed (step S28). The subsequent processing is the same as the operation of FIG.

以上説明したように、実施の形態2では、サーバ3から受信した音声認識結果が所定の条件に適合する場合に音声認識を行う。これによって、音声認識にかかるクライアント1の負荷を軽減することができる。   As described above, in the second embodiment, voice recognition is performed when the voice recognition result received from the server 3 meets a predetermined condition. As a result, the load on the client 1 for voice recognition can be reduced.

(実施の形態3)
図9は、実施の形態3に係る音声認識システムの構成を示すブロック図である。実施の形態3ではさらに、クライアント1に特徴量抽出部19を備える。図1または図7の音声認識部14に含まれる特徴量抽出を分離して示したものと考えることができる。
(Embodiment 3)
FIG. 9 is a block diagram showing the configuration of the speech recognition system according to the third embodiment. In the third embodiment, the client 1 further includes a feature amount extraction unit 19. It can be considered that the feature amount extraction included in the speech recognition unit 14 of FIG. 1 or 7 is shown separately.

特徴量抽出部19は、入力した音声について、音声認識するための特徴量を抽出する。特徴量抽出部19は、特徴量データを送信部12および音声認識部14に送る。送信部12は、音声データとして特徴量データをサーバ3に送信する。サーバ3の音声認識部33は、クライアント1から受信した特徴量データを用いて音声認識する。   The feature amount extraction unit 19 extracts a feature amount for speech recognition from the input speech. The feature amount extraction unit 19 sends the feature amount data to the transmission unit 12 and the voice recognition unit 14. The transmission unit 12 transmits feature amount data to the server 3 as audio data. The voice recognition unit 33 of the server 3 performs voice recognition using the feature amount data received from the client 1.

図10は、実施の形態3に係る音声認識システムの動作の一例を示すフローチャートである。クライアント1の音声入力部11で音声を入力すると(ステップS31)、特徴量抽出部19は、特徴量データを抽出する(ステップS32)。そして、送信部12から特徴量データを音声データとしてサーバ3に送信する(ステップS33)。   FIG. 10 is a flowchart illustrating an example of the operation of the speech recognition system according to the third embodiment. When voice is input through the voice input unit 11 of the client 1 (step S31), the feature amount extraction unit 19 extracts feature amount data (step S32). Then, the feature amount data is transmitted as audio data from the transmission unit 12 to the server 3 (step S33).

サーバ3では、受信部32で特徴量データを受信すると(ステップT31)、音声認識部33は特徴量データを用いて音声認識処理を行う(ステップT32)。そして、送信部34で音声認識結果をクライアント1に送信する(ステップT33)。以降の処理は、図8の実施の形態2の動作と同様である。   In the server 3, when the feature amount data is received by the receiving unit 32 (step T31), the speech recognition unit 33 performs speech recognition processing using the feature amount data (step T32). Then, the speech recognition result is transmitted to the client 1 by the transmission unit 34 (step T33). The subsequent processing is the same as the operation of the second embodiment in FIG.

実施の形態3では、特徴パラメータを音声データとして送信するので、サーバ3に送信する過程で音質劣化がなく、高精度の音声認識が実現される。特徴パラメータは元の音声信号データに比べて小さいので、データ送受信の伝送時間が短い。したがって、音声認識の応答が早くなる。   In the third embodiment, since the characteristic parameter is transmitted as voice data, there is no deterioration in sound quality in the process of transmitting to the server 3, and high-accuracy voice recognition is realized. Since the characteristic parameter is smaller than the original audio signal data, the transmission time of data transmission / reception is short. Therefore, the voice recognition response is accelerated.

図11は、図1、7または9に示すクライアント1のハードウェア構成の一例を示すブロック図である。クライアント1は、図11に示すように、制御部41、主記憶部42、外部記憶部43、操作部44、表示部45、入出力部46および送受信部47を備える。主記憶部42、外部記憶部43、操作部44、表示部45、入出力部46および送受信部47はいずれも内部バス40を介して制御部41に接続されている。   FIG. 11 is a block diagram illustrating an example of a hardware configuration of the client 1 illustrated in FIG. As shown in FIG. 11, the client 1 includes a control unit 41, a main storage unit 42, an external storage unit 43, an operation unit 44, a display unit 45, an input / output unit 46, and a transmission / reception unit 47. The main storage unit 42, the external storage unit 43, the operation unit 44, the display unit 45, the input / output unit 46, and the transmission / reception unit 47 are all connected to the control unit 41 via the internal bus 40.

制御部41はCPU(Central Processing Unit)等から構成され、外部記憶部43に記憶されている制御プログラム50に従って、クライアント1の音声入力部11、送信部12、受信部13、音声認識部14、表示部15、入力部16、選択部17、結果判定部18および特徴量抽出部19の各処理を実行する。   The control unit 41 includes a CPU (Central Processing Unit) and the like, and in accordance with a control program 50 stored in the external storage unit 43, the voice input unit 11, the transmission unit 12, the reception unit 13, the voice recognition unit 14, Each process of the display part 15, the input part 16, the selection part 17, the result determination part 18, and the feature-value extraction part 19 is performed.

主記憶部42はRAM(Random-Access Memory)等から構成され、外部記憶部43に記憶されている制御プログラム50をロードし、制御部41の作業領域として用いられる。   The main storage unit 42 is composed of a RAM (Random-Access Memory) or the like, loads a control program 50 stored in the external storage unit 43, and is used as a work area of the control unit 41.

外部記憶部43は、フラッシュメモリ、ハードディスク、DVD−RAM(Digital Versatile Disc Random-Access Memory)、DVD−RW(Digital Versatile Disc ReWritable)等の不揮発性メモリから構成され、クライアント1の処理を制御部41に行わせるためのプログラムを予め記憶し、また、制御部41の指示に従って、このプログラムが記憶するデータを制御部41に供給し、制御部41から供給されたデータを記憶する。   The external storage unit 43 includes a nonvolatile memory such as a flash memory, a hard disk, a DVD-RAM (Digital Versatile Disc Random-Access Memory), a DVD-RW (Digital Versatile Disc ReWritable), and the control unit 41 controls the processing of the client 1. In accordance with an instruction from the control unit 41, the data stored in the program is supplied to the control unit 41, and the data supplied from the control unit 41 is stored.

操作部44はキーボードおよびマウスなどのポインティングデバイス等と、キーボードおよびポインティングデバイス等を内部バス40に接続するインタフェース装置から構成されている。操作部44を介して、音声認識結果の選択指示などが入力され、制御部41に供給される。   The operation unit 44 includes a pointing device such as a keyboard and a mouse, and an interface device that connects the keyboard and the pointing device to the internal bus 40. A voice recognition result selection instruction or the like is input via the operation unit 44 and supplied to the control unit 41.

表示部45は、CRT(Cathode Ray Tube)またはLCD(Liquid Crystal Display)などから構成され、音声認識の結果や入力する文字または音声認識辞書に登録する単語などを表示する。   The display unit 45 is composed of a CRT (Cathode Ray Tube), an LCD (Liquid Crystal Display), or the like, and displays voice recognition results, input characters, words registered in the voice recognition dictionary, and the like.

入出力部46は、シリアルインタフェースまたはパラレルインタフェースから構成されている。入出力部46は、マイク21を接続して音声信号を入力する。また、スピーカ(図示せず)を接続して、音声を再生する。   The input / output unit 46 includes a serial interface or a parallel interface. The input / output unit 46 connects the microphone 21 and inputs an audio signal. In addition, a speaker (not shown) is connected to reproduce sound.

送受信部47は、ネットワークに接続する網終端装置または無線通信装置、およびそれらと接続するシリアルインタフェースまたはLAN(Local Area Network)インタフェースから構成されている。送受信部47は、ネットワークを介して、サーバ3に音声データを送信し、また、音声認識結果を受信する。   The transmission / reception unit 47 includes a network termination device or a wireless communication device connected to the network, and a serial interface or a LAN (Local Area Network) interface connected thereto. The transmission / reception unit 47 transmits voice data to the server 3 via the network and receives a voice recognition result.

図1、7または9に示すクライアント1の音声入力部11、送信部12、受信部13、音声認識部14、表示部15、入力部16、選択部17、結果判定部18および特徴量抽出部19の処理は、制御プログラム50が、制御部41、主記憶部42、外部記憶部43、操作部44、表示部45、入出力部46および送受信部47などを資源として用いて処理することによって実行する。   The voice input unit 11, the transmission unit 12, the reception unit 13, the voice recognition unit 14, the display unit 15, the input unit 16, the selection unit 17, the result determination unit 18, and the feature amount extraction unit of the client 1 illustrated in FIG. 19 is processed by the control program 50 using the control unit 41, main storage unit 42, external storage unit 43, operation unit 44, display unit 45, input / output unit 46, transmission / reception unit 47, and the like as resources. Execute.

なお、各実施の形態で説明した音声認識システムの構成は一例であり、任意に変更および修正が可能である。クライアント1またはサーバ3の構成は、実施の形態で示したものがすべてではなく、これらに限定されるものではない。例えば、実施の形態1で説明したように、クライアント1毎の音声認識部14がサーバ3にあってもよい。また、音声認識部33がクライアント1にあってもよい。   Note that the configuration of the voice recognition system described in each embodiment is an example, and can be arbitrarily changed and modified. The configuration of the client 1 or the server 3 is not limited to that shown in the embodiment, and is not limited to these. For example, as described in the first embodiment, the server 3 may include the voice recognition unit 14 for each client 1. The voice recognition unit 33 may be in the client 1.

その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更および修正が可能である。   In addition, the above-described hardware configuration and flowchart are examples, and can be arbitrarily changed and modified.

音声入力部11、送信部12、受信部13、音声認識部14、表示部15、入力部16、選択部17、結果判定部18および特徴量抽出部19等から構成されるクライアント1の音声認識処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。たとえば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読みとり可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行するクライアント1を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することでクライアント1を構成してもよい。   Speech recognition of the client 1 including the speech input unit 11, the transmission unit 12, the reception unit 13, the speech recognition unit 14, the display unit 15, the input unit 16, the selection unit 17, the result determination unit 18, the feature amount extraction unit 19, and the like The central part for processing can be realized by using a normal computer system, not by a dedicated system. For example, a computer program for executing the above operation is stored and distributed in a computer-readable recording medium (flexible disk, CD-ROM, DVD-ROM, etc.), and the computer program is installed in the computer. Thus, the client 1 that executes the above-described processing may be configured. The client 1 may be configured by storing the computer program in a storage device included in a server device on a communication network such as the Internet and downloading the computer program by a normal computer system.

また、クライアント1を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。   When the client 1 is realized by sharing of an OS (operating system) and an application program, or by cooperation between the OS and the application program, only the application program portion may be stored in a recording medium or a storage device. .

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。   It is also possible to superimpose a computer program on a carrier wave and distribute it via a communication network. For example, the computer program may be posted on a bulletin board (BBS, Bulletin Board System) on a communication network, and the computer program distributed via the network. The computer program may be started and executed in the same manner as other application programs under the control of the OS, so that the above-described processing may be executed.

本発明の実施の形態1に係る音声認識システムの構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition system which concerns on Embodiment 1 of this invention. 音声認識の結果の例を示す図である。It is a figure which shows the example of the result of speech recognition. 音声認識結果の表示と認識結果選択の例を示す図である。It is a figure which shows the example of a display of a speech recognition result, and recognition result selection. 実施の形態1に係る音声認識システムの動作の一例を示すフローチャートである。4 is a flowchart illustrating an example of an operation of the voice recognition system according to the first embodiment. 品詞情報を用いる場合の認識結果選択の例を示す図である。It is a figure which shows the example of recognition result selection in the case of using part of speech information. 未知語の情報を用いる場合の認識結果選択の例を示す図である。It is a figure which shows the example of recognition result selection in the case of using the information of an unknown word. 実施の形態2に係る音声認識システムの構成を示すブロック図である。It is a block diagram which shows the structure of the speech recognition system which concerns on Embodiment 2. FIG. 実施の形態2に係る音声認識システムの動作の一例を示すフローチャートである。10 is a flowchart illustrating an example of an operation of the voice recognition system according to the second embodiment. 実施の形態3に係る音声認識システムの構成を示すブロック図である。FIG. 10 is a block diagram illustrating a configuration of a voice recognition system according to Embodiment 3. 実施の形態3に係る音声認識システムの動作の一例を示すフローチャートである。10 is a flowchart illustrating an example of the operation of the speech recognition system according to the third embodiment. 実施の形態に係るクライアントのハードウェア構成の一例を示すブロック図である。It is a block diagram which shows an example of the hardware constitutions of the client which concerns on embodiment.

符号の説明Explanation of symbols

1 クライアント
3 サーバ
10 制御部
11 音声入力部
12 送信部
13 受信部
14 音声認識部
15 表示部
16 入力部
17 選択部
18 結果判定部
19 特徴量抽出部
20 内部バス
21 マイク
22 表示装置
23 入力装置
30 内部バス
31 制御部
32 受信部
33 音声認識部
34 送信部
40 内部バス
41 制御部
42 主記憶部
43 外部記憶部
44 操作部
45 表示部
46 入出力部
47 送受信部
50 制御プログラム
DESCRIPTION OF SYMBOLS 1 Client 3 Server 10 Control part 11 Voice input part 12 Transmission part 13 Reception part 14 Voice recognition part 15 Display part 16 Input part 17 Selection part 18 Result determination part 19 Feature-value extraction part 20 Internal bus 21 Microphone 22 Display apparatus 23 Input apparatus DESCRIPTION OF SYMBOLS 30 Internal bus 31 Control part 32 Reception part 33 Voice recognition part 34 Transmission part 40 Internal bus 41 Control part 42 Main memory part 43 External memory part 44 Operation part 45 Display part 46 Input / output part 47 Transmission / reception part 50 Control program

Claims (16)

サーバとクライアントから構成される音声認識システムであって、
前記クライアントは、
音声信号を入力する音声入力手段と、
前記音声信号を示すデータをサーバに送信する送信手段と、
を備え、
前記サーバは、
前記クライアントから音声信号を示すデータを受信するサーバ受信手段と、
前記サーバ受信手段で受信したデータから音声認識するサーバ音声認識手段と、
前記サーバ音声認識手段で音声認識した結果を前記クライアントに送信するサーバ送信手段と、
を備え、
前記クライアントはさらに、
前記サーバから前記音声認識した結果を受信する受信手段と、
前記受信手段で前記サーバから受信した前記音声認識した結果を参照して、前記受信した音声認識結果に対応する前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、
前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、
を備える、
ことを特徴とする音声認識システム。
A speech recognition system composed of a server and a client,
The client
A voice input means for inputting a voice signal;
Transmitting means for transmitting data indicating the audio signal to a server;
With
The server
Server receiving means for receiving data indicating an audio signal from the client;
Server voice recognition means for voice recognition from the data received by the server reception means;
Server transmission means for transmitting the result of voice recognition by the server voice recognition means to the client;
With
The client further includes:
Receiving means for receiving the voice recognition result from the server;
Referring to the voice recognition result received from the server by the receiving means, voice recognition means for voice recognition for data indicating the transmitted voice signal corresponding to the received voice recognition result;
A selection means for selecting a recognition result from the voice recognition result received from the server and the result of voice recognition by the voice recognition means;
Comprising
A speech recognition system characterized by that.
前記サーバ音声認識手段は、前記音声信号を示すデータから、文節区切り位置および文節の属性を表すデータを含む文節情報を抽出し、
前記サーバ送信手段は、前記文節情報を前記クライアントに送信し、
前記クライアントの音声認識手段は、前記サーバから受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する
ことを特徴とする請求項1に記載の音声認識システム。
The server speech recognition means extracts phrase information including data representing a phrase break position and a phrase attribute from data indicating the voice signal,
The server transmission means transmits the phrase information to the client,
The voice recognition system according to claim 1, wherein the voice recognition unit of the client refers to the phrase information received from the server and recognizes the voice indicating data indicating the transmitted voice signal.
前記文節情報は、文節に含まれる単語の品詞を表すデータを含み、
前記クライアントの音声認識手段は、前記サーバから受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する、
ことを特徴とする請求項2に記載の音声認識システム。
The phrase information includes data representing a part of speech of a word included in the phrase,
The client voice recognition means refers to data representing the part of speech of the phrase information received from the server, and recognizes voice for the data indicating the transmitted voice signal.
The voice recognition system according to claim 2.
前記サーバ音声認識手段は、前記音声信号を示すデータから音声認識した結果のうち、未知語の属性を推定し、
前記サーバ送信手段は、前記サーバ音声認識手段で推定した未知語の属性を前記クライアントに送信し、
前記クライアントの音声認識手段は、前記サーバから受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて音声認識する、
ことを特徴とする請求項1ないし3のいずれか1項に記載の音声認識システム。
The server speech recognition means estimates an attribute of an unknown word among results of speech recognition from data indicating the speech signal,
The server transmission means transmits the unknown word attribute estimated by the server speech recognition means to the client,
The voice recognition means of the client refers to the attribute of the unknown word received from the server, and recognizes voice about data indicating the transmitted voice signal.
The speech recognition system according to any one of claims 1 to 3, wherein
前記クライアントの音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に音声認識を行う、ことを特徴とする請求項1ないし4のいずれか1項に記載の音声認識システム。   5. The speech recognition according to claim 1, wherein the speech recognition unit of the client performs speech recognition when a speech recognition result received from the server meets a predetermined condition. system. 前記クライアントは、
前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が1つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも2つ以上の候補を表示する表示手段と、
前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、
を備え、
前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する、
ことを特徴とする請求項1ないし5のいずれか1項に記載の音声認識システム。
The client
When the speech recognition result received from the server and the result of speech recognition by the speech recognition means have a plurality of candidates for one word, display means for displaying at least two candidates among the plurality of candidates;
An input means for receiving an instruction to select at least one of the candidates displayed by the display means;
With
The selection means selects the recognition result based on the instruction to be selected input by the input means.
The speech recognition system according to claim 1, wherein:
前記クライアントは、前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、
前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送し、
前記サーバ音声認識手段は、前記クライアントから受信した特徴パラメータを用いて音声認識する、
ことを特徴とする請求項1ないし6のいずれか1項に記載の音声認識システム。
The client includes an extraction unit that extracts a feature parameter of speech input by the input unit,
The transmission means transmits the characteristic parameter extracted by the extraction means to the server,
The server speech recognition means recognizes speech using the feature parameter received from the client;
The speech recognition system according to claim 1, wherein
サーバとクライアントから構成される音声認識システムにおける音声認識方法であって、
前記クライアントで、音声信号を入力する音声入力ステップと、
前記音声信号を示すデータをサーバに送信する送信ステップと、
前記サーバで、前記クライアントから音声信号を示すデータを受信するサーバ受信ステップと、
前記サーバ受信ステップで受信したデータから音声認識するサーバ音声認識ステップと、
前記サーバ音声認識ステップで音声認識した結果を前記クライアントに送信するサーバ送信ステップと、
前記クライアントで、前記サーバから前記音声認識した結果を受信する受信ステップと、
前記受信ステップで受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識ステップと、
前記サーバから受信した音声認識結果と、前記音声認識ステップで音声認識した結果と、から認識結果を選択する選択ステップと、
を備えることを特徴とする音声認識方法。
A speech recognition method in a speech recognition system composed of a server and a client,
A voice input step of inputting a voice signal at the client;
A transmission step of transmitting data indicating the audio signal to a server;
A server receiving step of receiving data indicating an audio signal from the client at the server;
A server voice recognition step for voice recognition from the data received in the server reception step;
A server transmission step of transmitting the result of speech recognition in the server speech recognition step to the client;
A receiving step of receiving the voice recognition result from the server at the client;
With reference to the voice recognition result received in the reception step, the voice recognition step for voice recognition for the data indicating the transmitted voice signal;
A selection step for selecting a recognition result from the voice recognition result received from the server, and the voice recognition result in the voice recognition step;
A speech recognition method comprising:
音声信号を入力する音声入力手段と、
前記音声信号を示すデータをサーバに送信する送信手段と、
前記サーバから音声認識した結果を受信する受信手段と、
前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、
前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段と、
を備えることを特徴とする音声認識クライアント。
A voice input means for inputting a voice signal;
Transmitting means for transmitting data indicating the audio signal to a server;
Receiving means for receiving a result of voice recognition from the server;
With reference to the voice recognition result received by the receiving means, voice recognition means for voice recognition for the data indicating the transmitted voice signal;
A selection means for selecting a recognition result from the voice recognition result received from the server and the result of voice recognition by the voice recognition means;
A voice recognition client comprising:
前記受信手段は、前記サーバから、文節区切り位置および文節の属性を表すデータを含む文節情報を受信し、
前記音声認識手段は、前記受信手段で受信した文節情報を参照して、前記送信した音声信号を示すデータについて、音声認識する、
ことを特徴とする請求項9に記載の音声認識クライアント。
The receiving means receives clause information including data representing clause segmentation positions and clause attributes from the server,
The speech recognition means refers to the phrase information received by the reception means, and recognizes speech for data indicating the transmitted speech signal;
The voice recognition client according to claim 9.
前記文節情報は、前記文節に含まれる単語の品詞を表すデータを含み、
前記音声認識手段は、前記受信した文節情報の品詞を表すデータを参照して、前記送信した音声信号を示すデータについて、音声認識する、
ことを特徴とする請求項10に記載の音声認識クライアント。
The phrase information includes data representing a part of speech of a word included in the phrase,
The speech recognition means refers to data representing a part of speech of the received phrase information, and recognizes speech for data indicating the transmitted speech signal;
The voice recognition client according to claim 10.
前記受信手段は、前記サーバから受信した音声認識結果のうちの未知語の属性を受信し、
前記音声認識手段は、前記受信手段で受信した前記未知語の属性を参照して、前記送信した音声信号を示すデータについて、音声認識する
ことを特徴とする請求項9ないし11のいずれか1項に記載の音声認識クライアント。
The receiving means receives an attribute of an unknown word in the speech recognition result received from the server;
12. The voice recognition unit according to claim 9, wherein the voice recognition unit recognizes voice of data indicating the transmitted voice signal with reference to the attribute of the unknown word received by the reception unit. Voice recognition client as described in
前記音声認識手段は、前記サーバから受信した音声認識結果が所定の条件に適合する場合に、音声認識を行うことを特徴とする請求項9ないし12のいずれか1項に記載の音声認識クライアント。   The voice recognition client according to any one of claims 9 to 12, wherein the voice recognition means performs voice recognition when a voice recognition result received from the server meets a predetermined condition. 前記サーバから受信した音声認識結果および前記音声認識手段で音声認識した結果が1つの語について複数の候補を有する場合に、その複数の候補のうち少なくとも2つ以上の候補を表示する表示手段と、
前記表示手段で表示した候補のうち、少なくともいずれかを選択する指令を受け付ける入力手段と、
を備え、
前記選択手段は、前記入力手段で入力した前記選択する指令に基づいて、前記認識結果を選択する、
ことを特徴とする請求項9ないし13のいずれか1項に記載の音声認識クライアント。
When the speech recognition result received from the server and the result of speech recognition by the speech recognition means have a plurality of candidates for one word, display means for displaying at least two candidates among the plurality of candidates;
An input means for receiving an instruction to select at least one of the candidates displayed by the display means;
With
The selection means selects the recognition result based on the instruction to be selected input by the input means.
The voice recognition client according to any one of claims 9 to 13, wherein the voice recognition client is provided.
前記入力手段で入力した音声の特徴パラメータを抽出する抽出手段を備え、
前記送信手段は、前記抽出手段で抽出した特徴パラメータを前記サーバに伝送する、
ことを特徴とする請求項9ないし14のいずれか1項に記載の音声認識クライアント。
Comprising extraction means for extracting feature parameters of speech input by the input means;
The transmission means transmits the characteristic parameters extracted by the extraction means to the server;
The voice recognition client according to claim 9, wherein the voice recognition client is a voice recognition client.
コンピュータを、
音声信号を入力する音声入力手段と、
前記音声信号を示すデータをサーバに送信する送信手段と、
前記サーバから音声認識した結果を受信する受信手段と、
前記受信手段で受信した音声認識結果を参照して、前記送信した音声信号を示すデータについて、音声認識する音声認識手段と、
前記サーバから受信した音声認識結果と、前記音声認識手段で音声認識した結果と、から認識結果を選択する選択手段
として機能させることを特徴とするプログラム。
Computer
A voice input means for inputting a voice signal;
Transmitting means for transmitting data indicating the audio signal to a server;
Receiving means for receiving a result of voice recognition from the server;
With reference to the voice recognition result received by the receiving means, voice recognition means for voice recognition for the data indicating the transmitted voice signal;
A program that functions as a selection unit that selects a recognition result from a voice recognition result received from the server and a result of voice recognition by the voice recognition unit.
JP2008252512A 2008-09-30 2008-09-30 Speech recognition system, speech recognition method, speech recognition client, and program Active JP4902617B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008252512A JP4902617B2 (en) 2008-09-30 2008-09-30 Speech recognition system, speech recognition method, speech recognition client, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008252512A JP4902617B2 (en) 2008-09-30 2008-09-30 Speech recognition system, speech recognition method, speech recognition client, and program

Publications (2)

Publication Number Publication Date
JP2010085536A true JP2010085536A (en) 2010-04-15
JP4902617B2 JP4902617B2 (en) 2012-03-21

Family

ID=42249575

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008252512A Active JP4902617B2 (en) 2008-09-30 2008-09-30 Speech recognition system, speech recognition method, speech recognition client, and program

Country Status (1)

Country Link
JP (1) JP4902617B2 (en)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063537A (en) * 2010-09-15 2012-03-29 Ntt Docomo Inc Communication terminal, speech recognition method and speech recognition program
JP2012063536A (en) * 2010-09-15 2012-03-29 Ntt Docomo Inc Terminal device, speech recognition method and speech recognition program
JP2012133243A (en) * 2010-12-22 2012-07-12 Toshiba Corp Speech recognition device, speech recognition method, and television receiver having speech recognition device mounted thereon
JP2013064777A (en) * 2011-09-15 2013-04-11 Ntt Docomo Inc Terminal device, voice recognition program, voice recognition method and voice recognition system
JP2013140269A (en) * 2012-01-05 2013-07-18 Denso Corp Voice recognition device
WO2013128508A1 (en) 2012-02-27 2013-09-06 Necカシオモバイルコミュニケーションズ株式会社 Voice input device, voice input method and program
WO2013154010A1 (en) * 2012-04-09 2013-10-17 クラリオン株式会社 Voice recognition server integration device and voice recognition server integration method
JP2014505270A (en) * 2010-12-16 2014-02-27 ネイバー コーポレーション Speech recognition client system, speech recognition server system and speech recognition method for processing online speech recognition
WO2014129033A1 (en) * 2013-02-25 2014-08-28 三菱電機株式会社 Speech recognition system and speech recognition device
WO2014136222A1 (en) * 2013-03-06 2014-09-12 三菱電機株式会社 Speech-recognition device and speech-recognition method
JP2014191030A (en) * 2013-03-26 2014-10-06 Fuji Soft Inc Voice recognition terminal and voice recognition method using computer terminal
WO2015098109A1 (en) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 Speech recognition processing device, speech recognition processing method and display device
WO2015106930A1 (en) * 2014-01-15 2015-07-23 Bayerische Motoren Werke Aktiengesellschaft Method and system for generating a control command
WO2016013503A1 (en) * 2014-07-23 2016-01-28 三菱電機株式会社 Speech recognition device and speech recognition method
JPWO2016157352A1 (en) * 2015-03-30 2017-09-21 富士通株式会社 Speech recognition apparatus, speech recognition system, and program
JP2019015838A (en) * 2017-07-06 2019-01-31 クラリオン株式会社 Speech recognition system, terminal device and dictionary management method
WO2020065840A1 (en) * 2018-09-27 2020-04-02 株式会社オプティム Computer system, speech recognition method, and program
JP6807586B1 (en) * 2020-01-30 2021-01-06 ベルフェイス株式会社 Information processing equipment, information processing methods and programs
JP2022001930A (en) * 2020-06-22 2022-01-06 徹 江崎 Active learning system and active learning program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241796A (en) * 2002-02-22 2003-08-29 Canon Inc Speech recognition system and control method thereof
JP2003295893A (en) * 2002-04-01 2003-10-15 Omron Corp System, device, method, and program for speech recognition, and computer-readable recording medium where the speech recognizing program is recorded
JP2004325688A (en) * 2003-04-23 2004-11-18 Toyota Motor Corp Speech recognition system
JP2006003696A (en) * 2004-06-18 2006-01-05 Toyota Motor Corp Voice recognition device, voice recognition method and voice recognition program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003241796A (en) * 2002-02-22 2003-08-29 Canon Inc Speech recognition system and control method thereof
JP2003295893A (en) * 2002-04-01 2003-10-15 Omron Corp System, device, method, and program for speech recognition, and computer-readable recording medium where the speech recognizing program is recorded
JP2004325688A (en) * 2003-04-23 2004-11-18 Toyota Motor Corp Speech recognition system
JP2006003696A (en) * 2004-06-18 2006-01-05 Toyota Motor Corp Voice recognition device, voice recognition method and voice recognition program

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012063537A (en) * 2010-09-15 2012-03-29 Ntt Docomo Inc Communication terminal, speech recognition method and speech recognition program
JP2012063536A (en) * 2010-09-15 2012-03-29 Ntt Docomo Inc Terminal device, speech recognition method and speech recognition program
JP2015179287A (en) * 2010-12-16 2015-10-08 ネイバー コーポレーションNAVER Corporation Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method
JP2014505270A (en) * 2010-12-16 2014-02-27 ネイバー コーポレーション Speech recognition client system, speech recognition server system and speech recognition method for processing online speech recognition
US9318111B2 (en) 2010-12-16 2016-04-19 Nhn Corporation Voice recognition client system for processing online voice recognition, voice recognition server system, and voice recognition method
JP2012133243A (en) * 2010-12-22 2012-07-12 Toshiba Corp Speech recognition device, speech recognition method, and television receiver having speech recognition device mounted thereon
JP2013064777A (en) * 2011-09-15 2013-04-11 Ntt Docomo Inc Terminal device, voice recognition program, voice recognition method and voice recognition system
JP2013140269A (en) * 2012-01-05 2013-07-18 Denso Corp Voice recognition device
US9105267B2 (en) 2012-01-05 2015-08-11 Denso Corporation Speech recognition apparatus
WO2013128508A1 (en) 2012-02-27 2013-09-06 Necカシオモバイルコミュニケーションズ株式会社 Voice input device, voice input method and program
US9842589B2 (en) 2012-02-27 2017-12-12 Nec Corporation Voice input device, voice input method and program
US9524718B2 (en) 2012-04-09 2016-12-20 Clarion Co., Ltd. Speech recognition server integration device that is an intermediate module to relay between a terminal module and speech recognition server and speech recognition server integration method
WO2013154010A1 (en) * 2012-04-09 2013-10-17 クラリオン株式会社 Voice recognition server integration device and voice recognition server integration method
US9761228B2 (en) 2013-02-25 2017-09-12 Mitsubishi Electric Corporation Voice recognition system and voice recognition device
WO2014129033A1 (en) * 2013-02-25 2014-08-28 三菱電機株式会社 Speech recognition system and speech recognition device
JP5921756B2 (en) * 2013-02-25 2016-05-24 三菱電機株式会社 Speech recognition system and speech recognition device
CN105027198A (en) * 2013-02-25 2015-11-04 三菱电机株式会社 Speech recognition system and speech recognition device
DE112013006770B4 (en) 2013-03-06 2020-06-18 Mitsubishi Electric Corporation Speech recognition device and speech recognition method
JP5868544B2 (en) * 2013-03-06 2016-02-24 三菱電機株式会社 Speech recognition apparatus and speech recognition method
CN105009206B (en) * 2013-03-06 2018-02-09 三菱电机株式会社 Speech recognition equipment and audio recognition method
CN105009206A (en) * 2013-03-06 2015-10-28 三菱电机株式会社 Speech-recognition device and speech-recognition method
WO2014136222A1 (en) * 2013-03-06 2014-09-12 三菱電機株式会社 Speech-recognition device and speech-recognition method
US9431010B2 (en) 2013-03-06 2016-08-30 Mitsubishi Electric Corporation Speech-recognition device and speech-recognition method
JP2014191030A (en) * 2013-03-26 2014-10-06 Fuji Soft Inc Voice recognition terminal and voice recognition method using computer terminal
WO2015098109A1 (en) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 Speech recognition processing device, speech recognition processing method and display device
EP3089158A4 (en) * 2013-12-26 2016-11-02 Panasonic Ip Man Co Ltd Speech recognition processing device, speech recognition processing method and display device
JPWO2015098109A1 (en) * 2013-12-26 2017-03-23 パナソニックIpマネジメント株式会社 Speech recognition processing device, speech recognition processing method, and display device
US9767795B2 (en) 2013-12-26 2017-09-19 Panasonic Intellectual Property Management Co., Ltd. Speech recognition processing device, speech recognition processing method and display device
WO2015106930A1 (en) * 2014-01-15 2015-07-23 Bayerische Motoren Werke Aktiengesellschaft Method and system for generating a control command
CN105830151A (en) * 2014-01-15 2016-08-03 宝马股份公司 Method and system for generating a control command
WO2016013503A1 (en) * 2014-07-23 2016-01-28 三菱電機株式会社 Speech recognition device and speech recognition method
CN106537494A (en) * 2014-07-23 2017-03-22 三菱电机株式会社 Speech recognition device and speech recognition method
CN106537494B (en) * 2014-07-23 2018-01-23 三菱电机株式会社 Speech recognition equipment and audio recognition method
JP5951161B2 (en) * 2014-07-23 2016-07-13 三菱電機株式会社 Speech recognition apparatus and speech recognition method
JPWO2016157352A1 (en) * 2015-03-30 2017-09-21 富士通株式会社 Speech recognition apparatus, speech recognition system, and program
US10818283B2 (en) 2017-07-06 2020-10-27 Clarion Co., Ltd. Speech recognition system, terminal device, and dictionary management method
JP2019015838A (en) * 2017-07-06 2019-01-31 クラリオン株式会社 Speech recognition system, terminal device and dictionary management method
WO2020065840A1 (en) * 2018-09-27 2020-04-02 株式会社オプティム Computer system, speech recognition method, and program
JPWO2020065840A1 (en) * 2018-09-27 2021-08-30 株式会社オプティム Computer systems, speech recognition methods and programs
JP7121461B2 (en) 2018-09-27 2022-08-18 株式会社オプティム Computer system, speech recognition method and program
JP6807586B1 (en) * 2020-01-30 2021-01-06 ベルフェイス株式会社 Information processing equipment, information processing methods and programs
WO2021153621A1 (en) * 2020-01-30 2021-08-05 ベルフェイス株式会社 Information processing device, information processing method, program, and storage medium
JP2021120709A (en) * 2020-01-30 2021-08-19 ベルフェイス株式会社 Information processing device, information processing method, and program
JP2022001930A (en) * 2020-06-22 2022-01-06 徹 江崎 Active learning system and active learning program

Also Published As

Publication number Publication date
JP4902617B2 (en) 2012-03-21

Similar Documents

Publication Publication Date Title
JP4902617B2 (en) Speech recognition system, speech recognition method, speech recognition client, and program
US11727914B2 (en) Intent recognition and emotional text-to-speech learning
US7818166B2 (en) Method and apparatus for intention based communications for mobile communication devices
US10089974B2 (en) Speech recognition and text-to-speech learning system
US7848926B2 (en) System, method, and program for correcting misrecognized spoken words by selecting appropriate correction word from one or more competitive words
JP5706384B2 (en) Speech recognition apparatus, speech recognition system, speech recognition method, and speech recognition program
US8423351B2 (en) Speech correction for typed input
JP5119055B2 (en) Multilingual voice recognition apparatus, system, voice switching method and program
JP5062171B2 (en) Speech recognition system, speech recognition method, and speech recognition program
KR20230086737A (en) Cascade Encoders for Simplified Streaming and Non-Streaming Speech Recognition
US11532301B1 (en) Natural language processing
US11295732B2 (en) Dynamic interpolation for hybrid language models
US20220310073A1 (en) Mixture Model Attention for Flexible Streaming and Non-Streaming Automatic Speech Recognition
WO2018043138A1 (en) Information processing device, information processing method, and program
EP4295355A1 (en) Efficient streaming non-recurrent on-device end-to-end model
US20060247921A1 (en) Speech dialog method and system
KR20190074508A (en) Method for crowdsourcing data of chat model for chatbot
CN111414748A (en) Traffic data processing method and device
US11626107B1 (en) Natural language processing
JP3526549B2 (en) Speech recognition device, method and recording medium
JP2015143866A (en) Voice recognition apparatus, voice recognition system, voice recognition method, and voice recognition program
KR20220070647A (en) System for conversing of speeching and hearing impaired, foreigner
KR20240068723A (en) Convergence of sound and text expression in an automatic speech recognition system implemented with Rnn-T
JP2020126186A (en) Dialog execution program, device and method for controlling response utterance generation by response word determination
CN117355840A (en) Regularized word segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101021

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111125

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111228

R150 Certificate of patent or registration of utility model

Ref document number: 4902617

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250