JP2017068061A - Communication terminal and voice recognition system - Google Patents

Communication terminal and voice recognition system Download PDF

Info

Publication number
JP2017068061A
JP2017068061A JP2015193953A JP2015193953A JP2017068061A JP 2017068061 A JP2017068061 A JP 2017068061A JP 2015193953 A JP2015193953 A JP 2015193953A JP 2015193953 A JP2015193953 A JP 2015193953A JP 2017068061 A JP2017068061 A JP 2017068061A
Authority
JP
Japan
Prior art keywords
voice
recognition processing
voice recognition
voice data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015193953A
Other languages
Japanese (ja)
Other versions
JP6549009B2 (en
Inventor
隆行 崎田
Takayuki Sakita
隆行 崎田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2015193953A priority Critical patent/JP6549009B2/en
Publication of JP2017068061A publication Critical patent/JP2017068061A/en
Application granted granted Critical
Publication of JP6549009B2 publication Critical patent/JP6549009B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide a communication terminal and a voice recognition system for reducing communication load on a voice recognition processing server apparatus performing a voice recognition process on collected voice data.SOLUTION: A communication terminal transmits voice data produced by a user to a voice recognition processing server apparatus performing a voice recognition process, and receives a voice recognition processing result for the voice data. The communication terminal comprises: a volume measuring unit 112 that measures a volume of the voice data acquired by a voice input unit; and a voice data output control unit 113 that transmits the voice data to the voice recognition processing server apparatus. When the volumes of sequentially input voice data are lower than a predetermined threshold a recognition processing state of the voice recognition process on the voice data received from the voice recognition processing server apparatus is being an unrecognized state indicating a waiting state, the voice data output control unit 113 exerts a control not to transmit silence voice data to the voice recognition processing server apparatus.SELECTED DRAWING: Figure 2

Description

本発明の実施形態は、通信端末で収集されたユーザの音声を音声認識処理サーバ装置で音声認識処理し、音声認識結果を通信端末に提供する音声認識システムに関する。   Embodiments described herein relate generally to a voice recognition system that performs voice recognition processing on a user's voice collected by a communication terminal using a voice recognition processing server device and provides a voice recognition result to the communication terminal.

従来から、ユーザが発した音声を認識し、テキストデータ化する技術がある。音声認識処理は、処理負荷が高いため、クライアント側から音声データを送信してサーバ装置で音声認識処理を行うサーバ/クライアント型の音声認識システムがある。   Conventionally, there is a technology for recognizing a voice uttered by a user and converting it into text data. Since the voice recognition process has a high processing load, there is a server / client type voice recognition system in which voice data is transmitted from the client side and the voice recognition process is performed by the server device.

特許第4197271号公報Japanese Patent No. 4197271

通信端末で収集された音声データを音声認識処理する音声認識処理サーバ装置に対する通信負荷を低減させることができる通信端末及び音声認識システムを提供する。   Provided are a communication terminal and a voice recognition system capable of reducing a communication load on a voice recognition processing server device that performs voice recognition processing on voice data collected by a communication terminal.

実施形態の通信端末は、音声認識処理を行う音声認識処理サーバ装置にユーザが発した音声データを送信し、前記音声データに対する音声認識処理結果を前記音声認識処理サーバ装置から受信する。通信端末は、音声入力部によって取得された音声データの音量を測定する音量測定部と、前記音声データを前記音声認識処理サーバ装置に送信する音声データ出力制御部と、を有する。前記音声データ出力制御部は、順次入力される前記音声データの音量が無音を示す所定の閾値未満であり、かつ前記音声認識処理サーバ装置から受信する前記音声データに対する音声認識処理の認識処理状態が待機中を示す未認識中である場合、無音の前記音声データを前記音声認識処理サーバ装置に送信しないように制御する。   The communication terminal according to the embodiment transmits voice data issued by a user to a voice recognition processing server apparatus that performs voice recognition processing, and receives a voice recognition processing result for the voice data from the voice recognition processing server apparatus. The communication terminal includes a volume measuring unit that measures the volume of the voice data acquired by the voice input unit, and a voice data output control unit that transmits the voice data to the voice recognition processing server device. The voice data output control unit is configured such that the volume of the voice data sequentially input is less than a predetermined threshold value indicating silence, and the recognition processing state of voice recognition processing for the voice data received from the voice recognition processing server device is Control is performed so that the silent voice data is not transmitted to the voice recognition processing server apparatus when the voice data is not recognized indicating standby.

第1実施形態の音声認識システムの構成を示す図である。It is a figure which shows the structure of the speech recognition system of 1st Embodiment. 第1実施形態の通信端末の機能ブロックを示す図である。It is a figure which shows the functional block of the communication terminal of 1st Embodiment. 第1実施形態の音声認識処理を説明するための図である。It is a figure for demonstrating the speech recognition process of 1st Embodiment. 第1実施形態の音声認識処理サーバ装置の処理フローを示す図である。It is a figure which shows the processing flow of the speech recognition processing server apparatus of 1st Embodiment. 第1実施形態の通信端末の音声データ出力制御を説明するための図である。It is a figure for demonstrating the audio | voice data output control of the communication terminal of 1st Embodiment. 第1実施形態の通信端末の処理フローを示す図である。It is a figure which shows the processing flow of the communication terminal of 1st Embodiment. 第1実施形態の通信端末の音声データ出力制御の変形例を説明するための図である。It is a figure for demonstrating the modification of the audio | voice data output control of the communication terminal of 1st Embodiment. 図7に示した変形例に係る通信端末の処理フローを示す図である。It is a figure which shows the processing flow of the communication terminal which concerns on the modification shown in FIG.

以下、実施形態につき、図面を参照して説明する。   Hereinafter, embodiments will be described with reference to the drawings.

(第1実施形態)
図1から図8は、第1実施形態の音声認識システムを示す図である。図1は、音声認識システムの全体構成図である。音声認識システムは、ユーザ(利用者)側の通信端末100と、通信端末で収集(取得)されたユーザが発した音声に対する音声認識処理を行う音声認識処理サーバ装置300(以下、サーバ装置300という)と、を含んで構成されている。
(First embodiment)
1 to 8 are diagrams showing a voice recognition system according to the first embodiment. FIG. 1 is an overall configuration diagram of a voice recognition system. The voice recognition system includes a communication terminal 100 on the user (user) side and a voice recognition processing server device 300 (hereinafter referred to as server device 300) that performs voice recognition processing on voices uttered by the user collected (acquired) by the communication terminal. ) And.

通信端末100とサーバ装置300との間は、無線通信網または有線通信網で接続される。例えば、インターネット網(IP網)などの通信網、PHSをはじめ3G、4G、LTEといった携帯機器向けの通信網などが含まれる。また、PSTN(公衆交換電話網)であってもよい。   The communication terminal 100 and the server device 300 are connected by a wireless communication network or a wired communication network. For example, a communication network such as the Internet network (IP network), a communication network for mobile devices such as 3G, 4G, and LTE including PHS are included. Further, it may be a PSTN (Public Switched Telephone Network).

通信端末100は、通信機能を有する情報端末装置である。例えば、携帯電話機や多機能携帯電話機などの通話・通信機能を備えた携帯端末や、通信機能を備えるPDA(Personal Digital Assistant)などの移動通信端末装置がある。また、通信端末100として、パーソナルコンピュータなどの通信機能を備えた情報処理端末装置も含まれる。   The communication terminal 100 is an information terminal device having a communication function. For example, there are mobile terminals having a call / communication function such as a mobile phone and a multi-function mobile phone, and mobile communication terminal devices such as a PDA (Personal Digital Assistant) having a communication function. The communication terminal 100 also includes an information processing terminal device having a communication function such as a personal computer.

通信端末100は、図1に示すように、全体の制御を司るCPU110、記憶部120、サーバ装置300との間の通信制御を行う通信部130、マイク(集音装置)140、スピーカー(音声出力装置)150、液晶ディスプレイ等の表示部160及び、タッチパネルや操作キーなどの操作部170を含んで構成されている。   As shown in FIG. 1, the communication terminal 100 includes a CPU 110 that performs overall control, a storage unit 120, a communication unit 130 that performs communication control with the server device 300, a microphone (sound collector) 140, a speaker (audio output). Device) 150, a display unit 160 such as a liquid crystal display, and an operation unit 170 such as a touch panel and operation keys.

図2は、通信端末100の機能ブロック図である。通信端末100は、マイク140と接続されるA/D変換部111、音量測定部112、音声データ出力制御部113、認識状態確認部114、及び表示制御部115を含んで構成されている。   FIG. 2 is a functional block diagram of the communication terminal 100. The communication terminal 100 includes an A / D conversion unit 111 connected to a microphone 140, a sound volume measurement unit 112, an audio data output control unit 113, a recognition state confirmation unit 114, and a display control unit 115.

A/D変換部111は、マイク140から出力される音声のアナログ信号をデジタルデータに変換し、音声データを生成する。音量測定部112は、A/D変換部111から音声データが入力され、音声データからユーザが発した音声の音量を測定する。音声データ出力制御部113は、A/D変換部111から音声データが入力されるとともに、音量測定結果が入力され、生成された音声データをサーバ装置300に出力(送信)する制御を行う。認識状態確認部114は、サーバ装置300の音声認識処理の認識状態(処理状態)を確認(設定)する。表示制御部115は、サーバ装置300から受信する音声認識結果情報、例えば、テキストデータを表示部160に表示する表示制御を行う。   The A / D converter 111 converts an analog audio signal output from the microphone 140 into digital data, and generates audio data. The sound volume measurement unit 112 receives sound data from the A / D conversion unit 111 and measures the sound volume of the sound uttered by the user from the sound data. The audio data output control unit 113 receives the audio data from the A / D conversion unit 111 and receives the sound volume measurement result, and performs control to output (transmit) the generated audio data to the server device 300. The recognition state confirmation unit 114 confirms (sets) the recognition state (processing state) of the speech recognition processing of the server device 300. The display control unit 115 performs display control for displaying voice recognition result information received from the server device 300, for example, text data on the display unit 160.

サーバ装置300は、図1に示すように、全体の制御を司るCPU310、記憶部320、通信端末100との間の通信制御を行う通信部330、音声認識処理を行い、音声認識結果を出力する音声認識部340を含んで構成されている。音声認識部340は、ソフトウェアで構成され、CPU310が音声認識処理を行ったり、音声認識制御装置(制御回路)としてハードウェアで構成したりすることができる。   As shown in FIG. 1, the server apparatus 300 performs a voice recognition process, a CPU 310 that performs overall control, a storage unit 320, a communication unit 330 that performs communication control with the communication terminal 100, and outputs a voice recognition result. A voice recognition unit 340 is included. The speech recognition unit 340 is configured by software, and the CPU 310 can perform speech recognition processing or can be configured by hardware as a speech recognition control device (control circuit).

音声認識部340は、通信端末100から送信される音声データに対して音声認識処理を行う。音声認識処理は、入力される音声データの音響分析を行い、音響モデルや言語モデルとマッチングして、テキスト(文字)データに変換する処理である。   The voice recognition unit 340 performs voice recognition processing on the voice data transmitted from the communication terminal 100. The voice recognition process is a process of performing acoustic analysis of input voice data, matching it with an acoustic model or a language model, and converting it into text (character) data.

音響モデルは、音素の波形サンプルと波形サンプルに対応したテキストデータとを含む。言語モデルは、語と語の結び付きの出現確率、言い換えれば、言葉のつながりを確率を使って表現したデータである。これらの音響モデルや言語モデル、その他の音声認識処理に必要な情報な各種情報は、記憶部320に記憶されている。   The acoustic model includes a phoneme waveform sample and text data corresponding to the waveform sample. The language model is data representing the probability of appearance of word-to-word links, in other words, the connection of words using probability. These acoustic models, language models, and other various information necessary for speech recognition processing are stored in the storage unit 320.

また、音声認識部340の音声認識処理には、音声(有音)/非音声(無音)を判定して音声(有音)区間を検出する有効音声データ検出処理(VAD:Voice Activity Detection、以下、VAD処理という)を含むことができる。音声認識部340は、VAD処理で抽出された有音区間に対して音響モデル等を適用した音声認識処理を行うことができる。なお、本実施形態の音声認識処理は、適宜公知の手法を適用することができる。   The voice recognition process of the voice recognition unit 340 includes a voice data detection process (VAD: Voice Activity Detection, hereinafter) that determines voice (sound) / non-speech (silence) and detects a voice (sound) section. , Referred to as VAD processing). The voice recognition unit 340 can perform a voice recognition process in which an acoustic model or the like is applied to a voiced section extracted by the VAD process. Note that a known method can be appropriately applied to the voice recognition processing of the present embodiment.

そして、本実施形態の音声認識システムは、音声データに対する音声認識処理のリソースが、サーバ装置300側に集約されている。このため、通信端末100は、基本的に、音声認識に必要な音声データを収集・生成してサーバ装置300に送信するだけであり、VAD処理を含む音声認識処理は、通信端末100側で行われない。このように構成することで、通信端末100の処理負荷の低減を図ることができる。   In the speech recognition system according to the present embodiment, resources for speech recognition processing for speech data are collected on the server device 300 side. For this reason, the communication terminal 100 basically only collects and generates voice data necessary for voice recognition and transmits the voice data to the server apparatus 300. The voice recognition processing including VAD processing is performed on the communication terminal 100 side. I will not. With this configuration, the processing load on the communication terminal 100 can be reduced.

図3は、本実施形態の通信端末100で収集された音声データに対するサーバ装置300の音声認識処理を説明するための図である。図3に示すように、通信端末100は、音声認識を開始するための操作(例えば、音声認識用アプリケーションの起動)が行われると、マイク140を起動し、ユーザが発する音声を集音して音声データを生成する処理を開始する。   FIG. 3 is a diagram for explaining the voice recognition processing of the server apparatus 300 for the voice data collected by the communication terminal 100 of the present embodiment. As shown in FIG. 3, when an operation for starting speech recognition (for example, activation of a speech recognition application) is performed, the communication terminal 100 activates the microphone 140 and collects the speech uttered by the user. The process for generating audio data is started.

通信端末100のA/D変換部111には、マイク140から集音された音声が順次入力される。A/D変換部111は、所定の時間間隔でリアルタイムにA/D変換して音声パケットデータを生成する。音声データ出力制御部113は、サーバ装置300に時系列に連続して順次音声パケットデータを送信する。   The sound collected from the microphone 140 is sequentially input to the A / D conversion unit 111 of the communication terminal 100. The A / D converter 111 performs A / D conversion in real time at predetermined time intervals to generate voice packet data. The voice data output control unit 113 sequentially transmits voice packet data to the server apparatus 300 in time series.

通信端末100は、音声認識を開始するための操作が行われたタイミングやマイク140で音声が集音処理を開始したタイミングを起点として、マイク140を通じて集音された音声データを順次送信し続け、音声認識を終了するための条件を満たすまで、サーバ装置300側で音声のストリームデータとして受信されるように制御する。ここで、音声認識を終了するための条件とは、例えば、音声認識を終了するためのユーザによる操作やサーバ装置300から音声認識結果が所定時間以上受信されないことをトリガーとすることができる。   The communication terminal 100 continues to sequentially transmit the voice data collected through the microphone 140, starting from the timing when the operation for starting voice recognition is performed and the timing when the voice starts the sound collection process by the microphone 140, Until the condition for ending speech recognition is satisfied, control is performed so that the server apparatus 300 receives the data as audio stream data. Here, the condition for ending the voice recognition can be triggered by, for example, an operation by the user for ending the voice recognition or a voice recognition result not being received from the server device 300 for a predetermined time or more.

サーバ装置300は、音声データを受信すると、VAD処理を行い、有音/無音を判定して有音区間を検出し、有音区間に対して音響モデル等を用いて音声認識処理を行う。サーバ装置300は、「今日は・・・いい天気ですね」の音声データをユーザが発する音声の時間順に時系列に連続した音声パケットデータとして受信し、順次受信する音声パケットデータに対してその都度音声認識処理を行い、音声をテキストデータに順次変換する。   When the server apparatus 300 receives the voice data, the server apparatus 300 performs a VAD process, determines a voice / silence, detects a voice section, and performs a voice recognition process on the voice section using an acoustic model or the like. The server apparatus 300 receives the voice data “Today is a good weather” as voice packet data that is continuous in time order in the time order of voices uttered by the user. Voice recognition processing is performed, and the voice is sequentially converted into text data.

サーバ装置300は、通信端末100から有音/無音に関わらず、最初の音声パケットデータを受信したことをトリガーに、VAD処理を含む音声認識処理を開始することができる。一方、開始された音声認識処理は、無音の音声データが一定時間継続して入力された場合、一旦終了するように構成することができる。例えば、一定の時間(T)、有音の音声区間が検出されないとき、言い換えれば、一定の時間(T)継続して無音が検出されたとき、通信端末100から連続して入力される音声データに対する音声認識処理を一旦終了して待機状態に移行する。そして、継続した無音区間の後に有音の音声データが検出されたとき、改めて音声認識処理を開始するように構成することができる。   The server apparatus 300 can start voice recognition processing including VAD processing triggered by the reception of the first voice packet data regardless of whether the communication terminal 100 is voiced or silent. On the other hand, the started voice recognition process can be configured to end once when silent voice data is continuously input for a certain period of time. For example, when no voiced voice section is detected for a certain time (T), in other words, when silence is continuously detected for a certain time (T), voice data continuously input from the communication terminal 100 The voice recognition processing for is temporarily ended and a standby state is entered. Then, when voiced voice data is detected after the continuous silent section, the voice recognition process can be started again.

図4は、本実施形態のサーバ装置300の音声認識処理の処理フローを示す図である。図4に示すように、音声データを受信すると(S301のYES)、音声認識部340は、音声認識処理を開始し、SOS(Start of Speech)信号を通信端末100に送信(出力)する(S302)。SOS信号は、音声認識処理の認識状態を示す認識状態情報であり、認識状態が「認識処理中(実行中)」であることを示す。   FIG. 4 is a diagram illustrating a processing flow of the voice recognition processing of the server apparatus 300 according to the present embodiment. As shown in FIG. 4, when voice data is received (YES in S301), the voice recognition unit 340 starts voice recognition processing and transmits (outputs) an SOS (Start of Speech) signal to the communication terminal 100 (S302). ). The SOS signal is recognition state information indicating a recognition state of the speech recognition process, and indicates that the recognition state is “recognition process in progress”.

音声認識部340は、上述した音声認識処理を行い(S303)、音声データに対する音声認識処理結果を通信端末100に順次送信する。音声認識部340は、SOS信号出力後の音声認識処理実行中に、認識処理終了条件を満たすか否かを判別し(S304)、認識処理終了条件を満たすと判別されたとき(S304のYES)、実行中の音声認識処理を終了(待機に移行)するとともに、SOS信号に対する1サイクルの音声認識処理の終了を示すEOS(End of Speech)信号を通信端末100に送信(出力)する(S305)。EOS信号は、音声認識処理の認識状態を示す認識状態情報であり、認識状態が「未認識中(待機中)」であることを示す。ここで、ステップS304の認識処理終了条件は、音声認識処理中の無音区間の継続時間が、所定時間Tを超えたか否かとすることができる。   The voice recognition unit 340 performs the voice recognition process described above (S303), and sequentially transmits the voice recognition process result for the voice data to the communication terminal 100. The speech recognition unit 340 determines whether or not the recognition process end condition is satisfied during execution of the speech recognition process after the output of the SOS signal (S304), and when it is determined that the recognition process end condition is satisfied (YES in S304). Then, the voice recognition process being executed is ended (shifted to standby), and an EOS (End of Speech) signal indicating the end of one cycle of the voice recognition process for the SOS signal is transmitted (output) to the communication terminal 100 (S305). . The EOS signal is recognition state information indicating the recognition state of the speech recognition process, and indicates that the recognition state is “unrecognized (standby)”. Here, the recognition process end condition in step S304 can be whether or not the duration of the silent section during the speech recognition process has exceeded a predetermined time T.

なお、図3の「今日は・・・いい天気ですね」には、「・・・」で示す無音が含まれているが、音声認識部340は、「・・・」で示される無音の継続時間t1が、開始された音声認識処理の終了を判断するための上述の所定時間Tよりも短いため、音声認識処理を終了せずに、1サイクルの音声認識処理を継続して行っている。つまり、「今日は・・・いい天気ですね」を1サイクルの音声認識処理で行うために、文節間の無音期間t1を予めサンプリングし、文節間の無音期間t1よりも長い所定時間Tを設定することができる。なお、変換されたテキストデータは、1サイクルの音声認識処理中に例えば、変換された文字や文節毎に複数回に渡って通信端末100に送信されたり、1サイクルの音声認識処理の終わりに一括して通信端末に送信されたりするように構成することができる。   Note that “Today is a nice weather” in FIG. 3 includes silence indicated by “...”, But the voice recognition unit 340 indicates that the silence indicated by “. Since the duration t1 is shorter than the above-described predetermined time T for determining the end of the started voice recognition process, the one-cycle voice recognition process is continuously performed without ending the voice recognition process. . In other words, in order to perform “Today's good weather” with one cycle of speech recognition processing, the silence period t1 between phrases is sampled in advance, and a predetermined time T longer than the silence period t1 between phrases is set. can do. Note that the converted text data is transmitted to the communication terminal 100 a plurality of times for each converted character or phrase, for example, during one cycle of speech recognition processing, or at the end of one cycle of speech recognition processing. Then, it can be configured to be transmitted to the communication terminal.

このように本実施形態の音声認識処理は、「認識処理中」と「未認識中」の2つのステータスが存在し、一対のSOS信号とEOS信号との間の区間が音声認識処理の実行中を示し、EOS信号から次のサイクルにおける音声認識処理のSOS信号までの間の区間が音声認識処理の待機中を示す(図3参照)。通信端末100の認識状態確認部114は、SOS信号を受信した後にEOS信号を受信していない場合は、サーバ装置300の音声認識処理のステータスを「認識処理中」に更新し、EOS信号を受信した後にSOS信号を受信していない場合は、サーバ装置300の音声認識処理のステータスを「未認識中」に更新する。認識状態確認部114は、音声認識処理のステータス更新情報を音声データ出力制御部113に出力する。   As described above, in the voice recognition process of the present embodiment, there are two statuses of “recognition process in progress” and “unrecognized”, and the section between the pair of SOS signals and the EOS signal is being executed. The section from the EOS signal to the SOS signal of the speech recognition process in the next cycle indicates that the speech recognition process is on standby (see FIG. 3). If the EOS signal is not received after receiving the SOS signal, the recognition state confirmation unit 114 of the communication terminal 100 updates the status of the voice recognition processing of the server device 300 to “recognition processing in progress” and receives the EOS signal. If the SOS signal has not been received after this, the status of the speech recognition process of the server apparatus 300 is updated to “Unrecognized”. The recognition state confirmation unit 114 outputs the status update information of the voice recognition process to the voice data output control unit 113.

本実施例の音声認識部340は、通信端末100から連続して順次送信される音声データに対して音声認識処理を行うものの、音声データを受信して音声認識処理を開始し、音声認識処理中に所定時間Tの無音が継続したとき、音声認識処理を開始後の連続した無音区間に対して実行中の音声認識処理を一旦終了させて次の有音が入力されるまで待機し、有音が入力されたときに音声認識処理を改めて行う。このように構成することで、無用な音声認識処理の実行を抑制することができ、サーバ装置300の処理負荷を低減させることができる。   The voice recognition unit 340 according to the present embodiment performs voice recognition processing on voice data continuously transmitted from the communication terminal 100, but receives voice data and starts voice recognition processing. When the silence for a predetermined time T continues, the voice recognition process being executed for the continuous silent section after the start of the voice recognition process is temporarily stopped and waits until the next voice is input, Voice recognition processing is performed again when is input. By comprising in this way, execution of useless speech recognition processing can be suppressed and the processing load of the server apparatus 300 can be reduced.

ここで、図3に示すように、マイク140で集音されたユーザの音声には、有音及び無音が含まれるが、通信端末100は、音声データ内に無音が含まれていても所定の時間間隔で区切られた音声パケットデータをサーバ装置300に連続して送信している。図3の例において、例えば、「今日は・・・いい天気ですね」とユーザが発したとする。「・・・」は、無音を示す。「今日は・・・いい天気ですね」という音声データは、通信端末100側で「・・・」の無音で仕切られることなく、「・・・」で表す無音も音声データとして有音データに引き続きサーバ装置300に送信される。これは、サーバ装置300側に音声認識処理のリソースを集約して通信端末100の処理負荷を低減させるために、通信端末100側では、音声データに対するVAD処理などが行われないためである。   Here, as shown in FIG. 3, the user's voice collected by the microphone 140 includes sound and silence. However, the communication terminal 100 may perform predetermined processing even if silence is included in the sound data. Voice packet data divided at time intervals is continuously transmitted to the server apparatus 300. In the example of FIG. 3, for example, it is assumed that the user issues “Today is a nice weather”. “...” indicates silence. The voice data “Today is a nice weather” is not partitioned by the “...” silence on the communication terminal 100 side, and the silence represented by “...” is also converted into voice data as voice data. Subsequently, it is transmitted to the server apparatus 300. This is because VAD processing or the like for voice data is not performed on the communication terminal 100 side in order to reduce the processing load on the communication terminal 100 by consolidating voice recognition processing resources on the server device 300 side.

このため、図3に示すように、通信端末100は、サーバ装置300側の1サイクルの音声認識処理が終了していても、無音の音声データをサーバ装置300に送信し続けることになり、サーバ装置300との間の通信トラフィック(通信データ量)が増加し、ネットワークに負担を掛けてしまう。そこで、本実施形態では、SOS信号及びEOS信号に基づいてサーバ装置300の音声認識処理の処理状態を確認し、音声認識処理が待機中であるときは、無音の音声データをサーバ装置300に送信しないように制御する。   For this reason, as shown in FIG. 3, the communication terminal 100 continues to transmit silent sound data to the server device 300 even when the one-cycle speech recognition processing on the server device 300 side is completed. Communication traffic (communication data amount) with the apparatus 300 increases, which places a burden on the network. Therefore, in the present embodiment, the processing state of the voice recognition process of the server apparatus 300 is confirmed based on the SOS signal and the EOS signal, and when the voice recognition process is on standby, silent voice data is transmitted to the server apparatus 300. Control not to.

図5は、本実施形態の通信端末100の音声データ出力制御を説明するための図である。図5に示すように、音量測定部112は、音声データの音量を測定し、マイク140を通じて入力された音声が無音であるか有音であるかを判別する音量チェック処理を行う。例えば、測定された音量が所定の閾値以上の場合、有音と判別し、音量が閾値未満であるとき、無音と判別することができる。音量チェック結果は、音声データ出力制御部113に出力される。   FIG. 5 is a diagram for explaining audio data output control of the communication terminal 100 according to the present embodiment. As shown in FIG. 5, the volume measuring unit 112 measures the volume of the audio data and performs a volume check process for determining whether the sound input through the microphone 140 is silent or sound. For example, when the measured volume is equal to or higher than a predetermined threshold, it is determined as sound, and when the volume is less than the threshold, it can be determined as silence. The sound volume check result is output to the audio data output control unit 113.

音量チェック処理において無音と判別されたとき、音声データ出力制御部113は、認識状態確認部114から入力されるステータス更新情報に基づいて、サーバ装置300側で音声認識処理の状態が「未認識中」であるか否かを判別する。音声データ出力制御部113は、音声認識処理の状態が「未認識中」のとき、無音の音声データを送信しないように制御する。   When it is determined that there is no sound in the volume check process, the voice data output control unit 113 determines that the status of the voice recognition process is “Unrecognized” on the server device 300 side based on the status update information input from the recognition state confirmation unit 114. Is determined. The voice data output control unit 113 performs control so that silent voice data is not transmitted when the voice recognition processing state is “Unrecognized”.

つまり、音声データ出力制御部113は、サーバ装置300からSOS信号受信後に受信されたEOS信号に基づいて、音声データが有音となるまで、言い換えれば、EOS信号を受信した後、所定の閾値以上の音量の音声データが入力されるまで、音声データの生成及び音声データのサーバ装置300への送信を禁止し、サーバ装置300に、音声データが送信されないように音声データ出力制御を行う。   In other words, the audio data output control unit 113 is based on the EOS signal received after receiving the SOS signal from the server device 300 until the audio data becomes sound, in other words, after receiving the EOS signal, Until the sound data of the volume is input, the generation of the sound data and the transmission of the sound data to the server apparatus 300 are prohibited, and the sound data output control is performed so that the sound data is not transmitted to the server apparatus 300.

図6は、本実施形態の通信端末100の音声データ出力制御の処理フローを示す図である。通信端末100は、音声認識を開始するための操作が行われると(S101)、マイク140を起動するとともに、音声データ生成処理及び音量チェック処理を行う(S102)。なお、ステップS101では、サーバ装置300との間の通信セッションを確立する通信処理を行うことができる。   FIG. 6 is a diagram illustrating a processing flow of audio data output control of the communication terminal 100 according to the present embodiment. When an operation for starting voice recognition is performed (S101), the communication terminal 100 activates the microphone 140 and performs voice data generation processing and volume check processing (S102). In step S101, a communication process for establishing a communication session with the server apparatus 300 can be performed.

通信端末100は、音声認識を開始するための操作に伴い、サーバ装置300から認識状態情報の更新処理を開始する(S103)。更新処理は、通信端末100側での音声認識を終了するための条件を満たすまで、音声データ生成処理などの他の処理とは個別に並行してSOS信号及びEOS信号が受信される度に行われる。   The communication terminal 100 starts recognition state information update processing from the server device 300 in accordance with an operation for starting voice recognition (S103). The update process is performed each time an SOS signal and an EOS signal are received in parallel with other processes such as the voice data generation process until the condition for ending the voice recognition on the communication terminal 100 side is satisfied. Is called.

通信端末100は、生成された音声データの音量を測定し、マイク140を通じて入力された音声が無音であるか有音であるかを判別する(S104)。通信端末100は、測定された音量が所定の閾値以上(有音)であると判別された場合、サーバ装置300に音声データを送信する音声データ送信処理を行う(S105)。   The communication terminal 100 measures the volume of the generated voice data and determines whether the voice input through the microphone 140 is silent or voiced (S104). When it is determined that the measured sound volume is equal to or higher than the predetermined threshold (sound), the communication terminal 100 performs a sound data transmission process for transmitting sound data to the server device 300 (S105).

一方、ステップS104において、音量が閾値未満(無音)であると判別されたとき、通信端末100は、ステップS106に進み、認識状態情報に基づいてサーバ装置300側の音声認識処理が「認識処理中」であるか否かを判別する。「認識処理中」であると判別された場合、通信端末100は、ステップS105に進み、サーバ装置300に音声データを送信する音声データ送信処理を行う。「認識処理中」でない(「未認識中」である)と判別された場合、通信端末100は、ステップS105をスキップし、無音の音声データを送信しないように制御する。   On the other hand, when it is determined in step S104 that the volume is less than the threshold value (silence), the communication terminal 100 proceeds to step S106, and the voice recognition process on the server apparatus 300 side is based on the recognition state information. Is determined. If it is determined that “recognition processing is in progress”, the communication terminal 100 proceeds to step S105 and performs audio data transmission processing for transmitting audio data to the server device 300. When it is determined that it is not “recognition process in progress” (“unrecognition is in progress”), the communication terminal 100 skips step S105 and performs control so as not to transmit silent audio data.

通信端末100は、サーバ装置300に送信した音声データに対する音声認識結果を受信すると(S107のYES)、音声認識結果を表示部160に表示する表示制御を行う(S108)。通信端末100は、音声認識を終了するための条件を満たすまで、ステップS104からステップS108を繰り返し行う(S109のNO)。音声認識を終了するための条件を満たしたとき、例えば、起動した音声認識用のアプリケーションを終了するための操作が行われたとき(S109のYES)、通信端末100は、図6に示す処理を終了する。   When the communication terminal 100 receives the voice recognition result for the voice data transmitted to the server device 300 (YES in S107), the communication terminal 100 performs display control to display the voice recognition result on the display unit 160 (S108). The communication terminal 100 repeatedly performs step S104 to step S108 until the condition for ending speech recognition is satisfied (NO in S109). When the condition for ending the speech recognition is satisfied, for example, when an operation for ending the activated speech recognition application is performed (YES in S109), the communication terminal 100 performs the process shown in FIG. finish.

本実施形態によれば、通信端末100の処理性能がVAD処理を含む音声認識処理に必要なリソースに割かれないので通信端末100の処理負荷を低減できると共に、不要な音声をサーバ装置300に送信しないので、サーバ装置300との間の通信トラフィック(通信データ量)を低減させることができる。   According to the present embodiment, the processing performance of the communication terminal 100 is not allocated to the resources necessary for voice recognition processing including VAD processing, so that the processing load on the communication terminal 100 can be reduced and unnecessary voice is transmitted to the server device 300. Therefore, communication traffic (communication data amount) with the server apparatus 300 can be reduced.

次に、本実施形態の変形例について説明する。図7は、通信端末100の音声データ出力制御の変形例を説明するための図であり、図8は、本変形例に係る通信端末100の処理フローを示す図である。   Next, a modification of this embodiment will be described. FIG. 7 is a diagram for explaining a modified example of the audio data output control of the communication terminal 100, and FIG. 8 is a diagram illustrating a processing flow of the communication terminal 100 according to the modified example.

本変形例は、図7に示すように、音声認識を開始するための操作が行われた後、有音が入力されるまでの間の無音の音声データを、サーバ装置300に送信しないように制御する。図5及び図6に示した音声データ出力制御では、音声認識を開始するための操作が行われたタイミングやマイク140で音声が集音処理を開始したタイミングで、音声データをサーバ装置300に送信していた。   As shown in FIG. 7, in this modification, silent sound data is not transmitted to the server apparatus 300 until a sound is input after an operation for starting speech recognition is performed. Control. In the audio data output control shown in FIGS. 5 and 6, the audio data is transmitted to the server device 300 at the timing when the operation for starting the speech recognition is performed or when the sound starts the sound collecting process by the microphone 140. Was.

このため、例えば、音声認識を開始するための操作が行われた後にサーバ装置300からSOS信号を受信した後は、無音であっても音声データがサーバ装置300に送信されてしまう(図6のステップS104のNOからステップS106のYES)。   Therefore, for example, after receiving an SOS signal from the server apparatus 300 after an operation for starting voice recognition is performed, the voice data is transmitted to the server apparatus 300 even if there is no sound (in FIG. 6). From NO at step S104 to YES at step S106).

そこで、本変形例では、音声認識を開始するための操作後、つまり、マイク140で音声データの取得処理が開始されてから、最初に所定の閾値以上の音量の音声データ(有音の音声データ)が入力されるまでの間、マイク140で集音された無音の音声データをサーバ装置300に送信しないように制御し、上述の図5及び図6に示した音声データ出力制御に加え、よりサーバ装置300との間の通信トラフィック(通信データ量)を低減させるようにしている。   Therefore, in this modified example, after an operation for starting voice recognition, that is, after the voice data acquisition process is started by the microphone 140, first, voice data having a volume equal to or higher than a predetermined threshold (sound voice data). Until the silent sound data collected by the microphone 140 is not transmitted to the server device 300, and in addition to the sound data output control shown in FIGS. Communication traffic (communication data amount) with the server apparatus 300 is reduced.

まず、図8のステップS103の認識状態情報更新処理の開始時に、認識状態情報を「未認識中」に初期化する。音声認識を開始するための操作後、SOS信号を最初に受信するまでの間を「未認識中」と設定する。このように構成することで、図7に示すように、SOS信号の受信有無に関わらず、無音の音声データをサーバ装置300に送信しないようにすることができる。   First, at the start of the recognition state information update process in step S103 of FIG. 8, the recognition state information is initialized to “unrecognized”. After the operation for starting the speech recognition, the time until the first reception of the SOS signal is set as “Unrecognized”. With this configuration, as shown in FIG. 7, it is possible to prevent silent audio data from being transmitted to the server device 300 regardless of whether or not the SOS signal is received.

次に、図8の例において、図6のステップS104及びS106と異なり、音声認識を開始するための操作後、最初に音声データを送信する際に、認識状態情報に基づいてサーバ装置300側の音声認識処理が「認識処理中」であるか否かを判別する(S104A)。そして、通信端末100は、「未認識中」であると判別されたとき、生成された音声データの音量を測定し、マイク140を通じて入力された音声が無音であるか有音であるかを判別する(S106A)。通信端末100は、測定された音量が所定の閾値未満(無音)であると判別された場合、ステップS105をスキップし、無音の音声データをサーバ装置300に送信しないように制御する。   Next, in the example of FIG. 8, unlike the steps S104 and S106 of FIG. 6, when the voice data is transmitted for the first time after the operation for starting the voice recognition, the server apparatus 300 side is based on the recognition state information. It is determined whether the speech recognition process is “recognition process in progress” (S104A). When it is determined that the communication terminal 100 is “Unrecognized”, the communication terminal 100 measures the volume of the generated voice data and determines whether the voice input through the microphone 140 is silent or voiced. (S106A). If it is determined that the measured volume is less than the predetermined threshold (silence), the communication terminal 100 skips step S105 and performs control so that silent audio data is not transmitted to the server device 300.

図7の例で説明すると、音声認識を開始するための操作後、最初に音声データを送信するときは、音声認識処理のステータスが「未認識中」に初期設定されるので、音声データ出力制御部113は、音声データをサーバ装置300に送信しない。このため、サーバ装置300は、SOS信号を出力しないことになる。   Referring to the example of FIG. 7, when voice data is first transmitted after an operation for starting voice recognition, the voice recognition process status is initially set to “Unrecognized”, so voice data output control is performed. The unit 113 does not transmit the audio data to the server device 300. For this reason, the server apparatus 300 does not output the SOS signal.

そして、音声データ出力制御部113は、音声認識を開始するための操作後に未だ音声データを送信していない状態で、有音の音声データが入力されたとき、音声認識処理のステータスが「未認識中」であっても、サーバ装置300に音声データを送信する(S104AのNOからS106AのYES)。有音の音声データを受信したサーバ装置300は、SOS信号を通信端末100に送信し、音声認識処理のステータスが「認識処理中」に更新される。   When the voice data output control unit 113 receives voiced voice data in a state where voice data has not yet been transmitted after the operation for starting voice recognition, the voice recognition processing status is “Unrecognized”. Even if “medium”, the audio data is transmitted to the server apparatus 300 (NO in S104A to YES in S106A). Receiving the voice data, the server apparatus 300 transmits an SOS signal to the communication terminal 100, and the status of the voice recognition process is updated to “recognition process in progress”.

一方、ステップS104Aでサーバ装置300側の音声認識処理が「認識処理中」であると判別された場合は、音声データ出力制御部113は、無音であってもそのまま音声データをサーバ装置に送信する音声データ送信処理を行う(S105)。その他の処理について、図6で説明した処理も同様であるので、同符号を付して説明を省略する。   On the other hand, if it is determined in step S104A that the voice recognition process on the server apparatus 300 side is “recognition process in progress”, the voice data output control unit 113 transmits the voice data to the server apparatus as it is even when there is no sound. Audio data transmission processing is performed (S105). The other processes are the same as those described with reference to FIG.

以上、本実施形態の音声認識システムにおいて、通信端末100は、音声データに圧縮処理を施し、圧縮された音声データを音声認識処理サーバ装置300に送信することができる。このとき、音声認識処理サーバ装置300は、圧縮された音声データを伸長して音声認識処理を行うことができる。   As described above, in the voice recognition system of the present embodiment, the communication terminal 100 can perform compression processing on voice data and transmit the compressed voice data to the voice recognition processing server apparatus 300. At this time, the voice recognition processing server apparatus 300 can perform voice recognition processing by decompressing the compressed voice data.

また、通信端末100及び音声認識処理サーバ装置300の各機能は、プログラムとして構成することができる。例えば、コンピュータの不図示の補助記憶装置に格納され、CPU等の制御部が補助記憶装置に格納された各機能毎のプログラムを主記憶装置に読み出し、主記憶装置に読み出された該プログラムを制御部が実行し、本実施形態の各部の機能をコンピュータに動作させることができる。   Moreover, each function of the communication terminal 100 and the speech recognition processing server apparatus 300 can be configured as a program. For example, a program for each function stored in an auxiliary storage device (not shown) of a computer and stored in the auxiliary storage device by a control unit such as a CPU is read into the main storage device, and the program read into the main storage device is read out. The control unit can execute the function of each unit according to this embodiment.

また、上記プログラムは、コンピュータ読取可能な記録媒体に記録された状態で、コンピュータに提供することも可能である。コンピュータ読取可能な記録媒体としては、CD−ROM等の光ディスク、DVD−ROM等の相変化型光ディスク、MO(Magnet Optical)やMD(Mini Disk)などの光磁気ディスク、フロッピー(登録商標)ディスクやリムーバブルハードディスクなどの磁気ディスク、コンパクトフラッシュ(登録商標)、スマートメディア、SDメモリカード、メモリスティック等のメモリカードが挙げられる。また、本発明の目的のために特別に設計されて構成された集積回路(ICチップ等)等のハードウェア装置も記録媒体として含まれる。   Further, the program can be provided to a computer in a state where the program is recorded on a computer-readable recording medium. Computer-readable recording media include optical disks such as CD-ROM, phase change optical disks such as DVD-ROM, magneto-optical disks such as MO (Magnet Optical) and MD (Mini Disk), floppy (registered trademark) disks, Examples include magnetic disks such as removable hard disks, memory cards such as compact flash (registered trademark), smart media, SD memory cards, and memory sticks. A hardware device such as an integrated circuit (IC chip or the like) specially designed and configured for the purpose of the present invention is also included as a recording medium.

なお、本発明の実施形態を説明したが、当該実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。   In addition, although embodiment of this invention was described, the said embodiment is shown as an example and is not intending limiting the range of invention. The novel embodiment can be implemented in various other forms, and various omissions, replacements, and changes can be made without departing from the scope of the invention. These embodiments and modifications thereof are included in the scope and gist of the invention, and are included in the invention described in the claims and the equivalents thereof.

100 通信端末
110 制御部(CPU)
111 A/D変換部
112 音量測定部
113 音声データ出力制御部
114 認識状態確認部
115 表示制御部
120 記憶部
130 通信部
140 マイク
150 スピーカー
160 表示部
170 操作部
300 音声認識処理サーバ装置
310 制御部(CPU)
320 記憶部
330 通信部
340 音声認識部
100 communication terminal 110 control unit (CPU)
111 A / D conversion unit 112 Volume measurement unit 113 Audio data output control unit 114 Recognition state confirmation unit 115 Display control unit 120 Storage unit 130 Communication unit 140 Microphone 150 Speaker 160 Display unit 170 Operation unit 300 Voice recognition processing server apparatus 310 Control unit (CPU)
320 storage unit 330 communication unit 340 voice recognition unit

Claims (5)

音声認識処理を行う音声認識処理サーバ装置にユーザが発した音声データを送信し、前記音声データに対する音声認識処理結果を前記音声認識処理サーバ装置から受信する通信端末であって、
音声入力部によって取得された音声データの音量を測定する音量測定部と、
前記音声データを前記音声認識処理サーバ装置に送信する音声データ出力制御部と、を有し、
前記音声データ出力制御部は、順次入力される前記音声データの音量が無音を示す所定の閾値未満であり、かつ前記音声認識処理サーバ装置から受信する前記音声データに対する音声認識処理の認識処理状態が待機中を示す未認識中である場合、無音の前記音声データを前記音声認識処理サーバ装置に送信しないように制御することを特徴とする通信端末。
A communication terminal that transmits voice data issued by a user to a voice recognition processing server device that performs voice recognition processing, and receives a voice recognition processing result for the voice data from the voice recognition processing server device,
A volume measuring unit for measuring the volume of audio data acquired by the audio input unit;
A voice data output control unit that transmits the voice data to the voice recognition processing server device,
The voice data output control unit is configured such that the volume of the voice data sequentially input is less than a predetermined threshold value indicating silence, and the recognition processing state of voice recognition processing for the voice data received from the voice recognition processing server device is A communication terminal, which is controlled so as not to transmit the silent voice data to the voice recognition processing server device when unrecognized indicating standby.
前記認識処理状態を示す信号は、前記音声データの受信に伴って音声認識処理の開始を示すSOS信号と、前記SOS信号と対となり、開始された音声認識処理において無音の前記音声データが所定時間継続したときに音声認識処理を終了することを示すEOS信号と、を含み、
前記音声データ出力制御部は、前記EOS信号を受信した後、前記所定の閾値以上の音量の前記音声データが入力されるまで、前記音声データを前記音声認識処理サーバ装置に送信しないように制御することを特徴とする請求項1に記載の通信端末。
The signal indicating the recognition processing state is paired with the SOS signal and the SOS signal indicating the start of the voice recognition processing in response to the reception of the voice data, and the silent voice data is detected for a predetermined time in the started voice recognition processing. An EOS signal indicating that the speech recognition process is to be terminated when it continues,
The voice data output control unit controls not to transmit the voice data to the voice recognition processing server apparatus until the voice data having a volume equal to or higher than the predetermined threshold is input after receiving the EOS signal. The communication terminal according to claim 1.
前記音声データ出力制御部は、前記音声入力部で前記音声データの取得処理が開始されてから前記所定の閾値以上の音量の前記音声データが入力されるまでの間、無音を示す前記音声データを前記音声認識処理サーバ装置に送信しないように制御することを特徴とする請求項1または2に記載の通信端末。   The audio data output control unit outputs the audio data indicating silence during a period from when the audio data acquisition process is started by the audio input unit to when the audio data having a volume equal to or higher than the predetermined threshold is input. The communication terminal according to claim 1, wherein control is performed so as not to transmit to the voice recognition processing server device. 音声認識処理を行う音声認識処理サーバ装置にユーザが発した音声データを送信し、前記音声データに対する音声認識処理結果を前記音声認識処理サーバ装置から受信する通信端末によって実行されるプログラムであって、
音声入力部によって取得された音声データの音量を測定する第1機能と、
前記音声データを前記音声認識処理サーバ装置に送信する第2機能と、を含み、
前記第2機能は、順次入力される前記音声データの音量が無音を示す所定の閾値未満であり、かつ前記音声認識処理サーバ装置から受信する前記音声データに対する音声認識処理の認識処理状態が待機中を示す未認識中である場合、無音の前記音声データを前記音声認識処理サーバ装置に送信しないように制御することを特徴とするプログラム。
A program executed by a communication terminal that transmits voice data issued by a user to a voice recognition processing server device that performs voice recognition processing, and receives a voice recognition processing result for the voice data from the voice recognition processing server device,
A first function for measuring the volume of audio data acquired by the audio input unit;
A second function of transmitting the voice data to the voice recognition processing server device,
In the second function, the volume of the voice data that is sequentially input is less than a predetermined threshold value indicating silence, and the recognition processing state of the voice recognition process for the voice data received from the voice recognition processing server apparatus is on standby. When the program is unrecognized, the program is controlled so as not to transmit the silent voice data to the voice recognition processing server apparatus.
音声認識処理を行う音声認識処理サーバ装置と、ユーザが発した音声データを前記音声認識処理サーバ装置に送信し、前記音声データに対する音声認識処理結果を前記音声認識処理サーバ装置から受信する通信端末と、を含む音声認識システムであって、
前記音声認識処理サーバ装置は、前記受信した音声データに対する音声認識処理の認識処理状態を示す信号を前記通信端末に送信し、
前記通信端末は、
音声入力部によって取得された音声データの音量を測定する音量測定部と、
前記音声データを前記音声認識処理サーバ装置に送信する音声データ出力制御部と、を有し、
前記音声データ出力制御部は、順次入力される前記音声データの音量が無音を示す所定の閾値未満であり、かつ前記認識処理状態が音声認識処理の待機中を示す未認識中である場合、前記音声データを前記音声認識処理サーバ装置に送信しないように制御することを特徴とする音声認識システム。
A speech recognition processing server device that performs speech recognition processing; and a communication terminal that transmits speech data issued by a user to the speech recognition processing server device and receives a speech recognition processing result for the speech data from the speech recognition processing server device. A speech recognition system comprising:
The voice recognition processing server device transmits a signal indicating a recognition processing state of voice recognition processing to the received voice data to the communication terminal,
The communication terminal is
A volume measuring unit for measuring the volume of audio data acquired by the audio input unit;
A voice data output control unit that transmits the voice data to the voice recognition processing server device,
The sound data output control unit, when the volume of the sound data sequentially input is less than a predetermined threshold value indicating silence, and the recognition processing state is unrecognized indicating standby for sound recognition processing, A voice recognition system that controls not to transmit voice data to the voice recognition processing server device.
JP2015193953A 2015-09-30 2015-09-30 Communication terminal and speech recognition system Active JP6549009B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015193953A JP6549009B2 (en) 2015-09-30 2015-09-30 Communication terminal and speech recognition system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015193953A JP6549009B2 (en) 2015-09-30 2015-09-30 Communication terminal and speech recognition system

Publications (2)

Publication Number Publication Date
JP2017068061A true JP2017068061A (en) 2017-04-06
JP6549009B2 JP6549009B2 (en) 2019-07-24

Family

ID=58492433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015193953A Active JP6549009B2 (en) 2015-09-30 2015-09-30 Communication terminal and speech recognition system

Country Status (1)

Country Link
JP (1) JP6549009B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019124855A (en) * 2018-01-18 2019-07-25 株式会社ユピテル Apparatus and program and the like
JP2019164232A (en) * 2018-03-19 2019-09-26 株式会社リコー Sharing terminal, method and program, and sharing system and method
CN111063345A (en) * 2018-10-17 2020-04-24 三星电子株式会社 Electronic device, control method thereof, and sound output control system of electronic device
JP2021076762A (en) * 2019-11-12 2021-05-20 株式会社シーイーシー Voice information generation device, voice information generation method and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225592A (en) * 1994-02-14 1995-08-22 Matsushita Electric Ind Co Ltd Device for detecting sound section
JP2005331616A (en) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> Client to server speech recognition method, device for use in same, and its program and recording medium
JP2012193018A (en) * 2011-03-16 2012-10-11 Mitsubishi Electric Corp Elevator control system
JP2014142566A (en) * 2013-01-25 2014-08-07 Alpine Electronics Inc Voice recognition system and voice recognition method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225592A (en) * 1994-02-14 1995-08-22 Matsushita Electric Ind Co Ltd Device for detecting sound section
JP2005331616A (en) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> Client to server speech recognition method, device for use in same, and its program and recording medium
JP2012193018A (en) * 2011-03-16 2012-10-11 Mitsubishi Electric Corp Elevator control system
JP2014142566A (en) * 2013-01-25 2014-08-07 Alpine Electronics Inc Voice recognition system and voice recognition method

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019124855A (en) * 2018-01-18 2019-07-25 株式会社ユピテル Apparatus and program and the like
JP7130201B2 (en) 2018-01-18 2022-09-05 株式会社ユピテル Equipment and programs, etc.
JP2019164232A (en) * 2018-03-19 2019-09-26 株式会社リコー Sharing terminal, method and program, and sharing system and method
JP7091745B2 (en) 2018-03-19 2022-06-28 株式会社リコー Display terminals, programs, information processing systems and methods
CN111063345A (en) * 2018-10-17 2020-04-24 三星电子株式会社 Electronic device, control method thereof, and sound output control system of electronic device
CN111063345B (en) * 2018-10-17 2024-01-05 三星电子株式会社 Electronic device, control method thereof, and sound output control system of electronic device
JP2021076762A (en) * 2019-11-12 2021-05-20 株式会社シーイーシー Voice information generation device, voice information generation method and program
JP7473325B2 (en) 2019-11-12 2024-04-23 株式会社シーイーシー Audio information generating device, audio information generating method, and program

Also Published As

Publication number Publication date
JP6549009B2 (en) 2019-07-24

Similar Documents

Publication Publication Date Title
CN110049270B (en) Multi-person conference voice transcription method, device, system, equipment and storage medium
JP6751433B2 (en) Processing method, device and storage medium for waking up application program
JP6113302B2 (en) Audio data transmission method and apparatus
CN110047481B (en) Method and apparatus for speech recognition
WO2014208231A1 (en) Voice recognition client device for local voice recognition
CN108141498B (en) Translation method and terminal
JP6139598B2 (en) Speech recognition client system, speech recognition server system and speech recognition method for processing online speech recognition
EP2538404A1 (en) Voice data transferring device, terminal device, voice data transferring method, and voice recognition system
JP2013527490A (en) Smart audio logging system and method for mobile devices
US20210241768A1 (en) Portable audio device with voice capabilities
CN104168353A (en) Bluetooth earphone and voice interaction control method thereof
JP2004527006A (en) System and method for transmitting voice active status in a distributed voice recognition system
JP6549009B2 (en) Communication terminal and speech recognition system
CN113362828B (en) Method and apparatus for recognizing speech
JPWO2013027360A1 (en) Speech recognition system, recognition dictionary registration system, and acoustic model identifier sequence generation device
US10229701B2 (en) Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
JP6641832B2 (en) Audio processing device, audio processing method, and audio processing program
CN103514882A (en) Voice identification method and system
JP2009178783A (en) Communication robot and its control method
JP6448950B2 (en) Spoken dialogue apparatus and electronic device
JP2018036320A (en) Sound processing method, sound processing device, and program
JP5988077B2 (en) Utterance section detection apparatus and computer program for detecting an utterance section
JP2015100054A (en) Voice communication system, voice communication method and program
KR20200109841A (en) A speech recognition apparatus
CN112218137A (en) Multimedia data acquisition method, device, equipment and medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190626

R150 Certificate of patent or registration of utility model

Ref document number: 6549009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150