JP6549009B2 - 通信端末及び音声認識システム - Google Patents

通信端末及び音声認識システム Download PDF

Info

Publication number
JP6549009B2
JP6549009B2 JP2015193953A JP2015193953A JP6549009B2 JP 6549009 B2 JP6549009 B2 JP 6549009B2 JP 2015193953 A JP2015193953 A JP 2015193953A JP 2015193953 A JP2015193953 A JP 2015193953A JP 6549009 B2 JP6549009 B2 JP 6549009B2
Authority
JP
Japan
Prior art keywords
recognition processing
voice
server device
voice data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015193953A
Other languages
English (en)
Other versions
JP2017068061A (ja
Inventor
隆行 崎田
隆行 崎田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2015193953A priority Critical patent/JP6549009B2/ja
Publication of JP2017068061A publication Critical patent/JP2017068061A/ja
Application granted granted Critical
Publication of JP6549009B2 publication Critical patent/JP6549009B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Description

本発明の実施形態は、通信端末で収集されたユーザの音声を音声認識処理サーバ装置で音声認識処理し、音声認識結果を通信端末に提供する音声認識システムに関する。
従来から、ユーザが発した音声を認識し、テキストデータ化する技術がある。音声認識処理は、処理負荷が高いため、クライアント側から音声データを送信してサーバ装置で音声認識処理を行うサーバ/クライアント型の音声認識システムがある。
特許第4197271号公報
通信端末で収集された音声データを音声認識処理する音声認識処理サーバ装置に対する通信負荷を低減させることができる通信端末及び音声認識システムを提供する。
実施形態の通信端末は、音声認識処理を行う音声認識処理サーバ装置にユーザが発した音声データを送信し、前記音声データに対する音声認識処理結果を前記音声認識処理サーバ装置から受信する。通信端末は、音声入力部によって取得された音声データの音量を測定する音量測定部と、前記音声データを前記音声認識処理サーバ装置に送信する音声データ出力制御部と、を有する。前記音声データ出力制御部は、順次入力される前記音声データの音量が無音を示す所定の閾値未満であり、かつ前記音声認識処理サーバ装置から受信する前記音声データに対する音声認識処理の認識処理状態が待機中を示す未認識中である場合、無音の前記音声データを前記音声認識処理サーバ装置に送信しないように制御する。ここで、前記認識処理状態を示す信号は、前記音声データの受信に伴って音声認識処理の開始を示すSOS信号と、前記SOS信号と対となり、開始された音声認識処理において無音の前記音声データが所定時間継続したときに音声認識処理を終了することを示すEOS信号と、を含み、前記音声データ出力制御部は、前記EOS信号を受信した後、前記所定の閾値以上の音量の前記音声データが入力されるまで、前記音声データを前記音声認識処理サーバ装置に送信しないように制御する。
第1実施形態の音声認識システムの構成を示す図である。 第1実施形態の通信端末の機能ブロックを示す図である。 第1実施形態の音声認識処理を説明するための図である。 第1実施形態の音声認識処理サーバ装置の処理フローを示す図である。 第1実施形態の通信端末の音声データ出力制御を説明するための図である。 第1実施形態の通信端末の処理フローを示す図である。 第1実施形態の通信端末の音声データ出力制御の変形例を説明するための図である。 図7に示した変形例に係る通信端末の処理フローを示す図である。
以下、実施形態につき、図面を参照して説明する。
(第1実施形態)
図1から図8は、第1実施形態の音声認識システムを示す図である。図1は、音声認識システムの全体構成図である。音声認識システムは、ユーザ(利用者)側の通信端末100と、通信端末で収集(取得)されたユーザが発した音声に対する音声認識処理を行う音声認識処理サーバ装置300(以下、サーバ装置300という)と、を含んで構成されている。
通信端末100とサーバ装置300との間は、無線通信網または有線通信網で接続される。例えば、インターネット網(IP網)などの通信網、PHSをはじめ3G、4G、LTEといった携帯機器向けの通信網などが含まれる。また、PSTN(公衆交換電話網)であってもよい。
通信端末100は、通信機能を有する情報端末装置である。例えば、携帯電話機や多機能携帯電話機などの通話・通信機能を備えた携帯端末や、通信機能を備えるPDA(Personal Digital Assistant)などの移動通信端末装置がある。また、通信端末100として、パーソナルコンピュータなどの通信機能を備えた情報処理端末装置も含まれる。
通信端末100は、図1に示すように、全体の制御を司るCPU110、記憶部120、サーバ装置300との間の通信制御を行う通信部130、マイク(集音装置)140、スピーカー(音声出力装置)150、液晶ディスプレイ等の表示部160及び、タッチパネルや操作キーなどの操作部170を含んで構成されている。
図2は、通信端末100の機能ブロック図である。通信端末100は、マイク140と接続されるA/D変換部111、音量測定部112、音声データ出力制御部113、認識状態確認部114、及び表示制御部115を含んで構成されている。
A/D変換部111は、マイク140から出力される音声のアナログ信号をデジタルデータに変換し、音声データを生成する。音量測定部112は、A/D変換部111から音声データが入力され、音声データからユーザが発した音声の音量を測定する。音声データ出力制御部113は、A/D変換部111から音声データが入力されるとともに、音量測定結果が入力され、生成された音声データをサーバ装置300に出力(送信)する制御を行う。認識状態確認部114は、サーバ装置300の音声認識処理の認識状態(処理状態)を確認(設定)する。表示制御部115は、サーバ装置300から受信する音声認識結果情報、例えば、テキストデータを表示部160に表示する表示制御を行う。
サーバ装置300は、図1に示すように、全体の制御を司るCPU310、記憶部320、通信端末100との間の通信制御を行う通信部330、音声認識処理を行い、音声認識結果を出力する音声認識部340を含んで構成されている。音声認識部340は、ソフトウェアで構成され、CPU310が音声認識処理を行ったり、音声認識制御装置(制御回路)としてハードウェアで構成したりすることができる。
音声認識部340は、通信端末100から送信される音声データに対して音声認識処理を行う。音声認識処理は、入力される音声データの音響分析を行い、音響モデルや言語モデルとマッチングして、テキスト(文字)データに変換する処理である。
音響モデルは、音素の波形サンプルと波形サンプルに対応したテキストデータとを含む。言語モデルは、語と語の結び付きの出現確率、言い換えれば、言葉のつながりを確率を使って表現したデータである。これらの音響モデルや言語モデル、その他の音声認識処理に必要な情報な各種情報は、記憶部320に記憶されている。
また、音声認識部340の音声認識処理には、音声(有音)/非音声(無音)を判定して音声(有音)区間を検出する有効音声データ検出処理(VAD:Voice Activity Detection、以下、VAD処理という)を含むことができる。音声認識部340は、VAD処理で抽出された有音区間に対して音響モデル等を適用した音声認識処理を行うことができる。なお、本実施形態の音声認識処理は、適宜公知の手法を適用することができる。
そして、本実施形態の音声認識システムは、音声データに対する音声認識処理のリソースが、サーバ装置300側に集約されている。このため、通信端末100は、基本的に、音声認識に必要な音声データを収集・生成してサーバ装置300に送信するだけであり、VAD処理を含む音声認識処理は、通信端末100側で行われない。このように構成することで、通信端末100の処理負荷の低減を図ることができる。
図3は、本実施形態の通信端末100で収集された音声データに対するサーバ装置300の音声認識処理を説明するための図である。図3に示すように、通信端末100は、音声認識を開始するための操作(例えば、音声認識用アプリケーションの起動)が行われると、マイク140を起動し、ユーザが発する音声を集音して音声データを生成する処理を開始する。
通信端末100のA/D変換部111には、マイク140から集音された音声が順次入力される。A/D変換部111は、所定の時間間隔でリアルタイムにA/D変換して音声パケットデータを生成する。音声データ出力制御部113は、サーバ装置300に時系列に連続して順次音声パケットデータを送信する。
通信端末100は、音声認識を開始するための操作が行われたタイミングやマイク140で音声が集音処理を開始したタイミングを起点として、マイク140を通じて集音された音声データを順次送信し続け、音声認識を終了するための条件を満たすまで、サーバ装置300側で音声のストリームデータとして受信されるように制御する。ここで、音声認識を終了するための条件とは、例えば、音声認識を終了するためのユーザによる操作やサーバ装置300から音声認識結果が所定時間以上受信されないことをトリガーとすることができる。
サーバ装置300は、音声データを受信すると、VAD処理を行い、有音/無音を判定して有音区間を検出し、有音区間に対して音響モデル等を用いて音声認識処理を行う。サーバ装置300は、「今日は・・・いい天気ですね」の音声データをユーザが発する音声の時間順に時系列に連続した音声パケットデータとして受信し、順次受信する音声パケットデータに対してその都度音声認識処理を行い、音声をテキストデータに順次変換する。
サーバ装置300は、通信端末100から有音/無音に関わらず、最初の音声パケットデータを受信したことをトリガーに、VAD処理を含む音声認識処理を開始することができる。一方、開始された音声認識処理は、無音の音声データが一定時間継続して入力された場合、一旦終了するように構成することができる。例えば、一定の時間(T)、有音の音声区間が検出されないとき、言い換えれば、一定の時間(T)継続して無音が検出されたとき、通信端末100から連続して入力される音声データに対する音声認識処理を一旦終了して待機状態に移行する。そして、継続した無音区間の後に有音の音声データが検出されたとき、改めて音声認識処理を開始するように構成することができる。
図4は、本実施形態のサーバ装置300の音声認識処理の処理フローを示す図である。図4に示すように、音声データを受信すると(S301のYES)、音声認識部340は、音声認識処理を開始し、SOS(Start of Speech)信号を通信端末100に送信(出力)する(S302)。SOS信号は、音声認識処理の認識状態を示す認識状態情報であり、認識状態が「認識処理中(実行中)」であることを示す。
音声認識部340は、上述した音声認識処理を行い(S303)、音声データに対する音声認識処理結果を通信端末100に順次送信する。音声認識部340は、SOS信号出力後の音声認識処理実行中に、認識処理終了条件を満たすか否かを判別し(S304)、認識処理終了条件を満たすと判別されたとき(S304のYES)、実行中の音声認識処理を終了(待機に移行)するとともに、SOS信号に対する1サイクルの音声認識処理の終了を示すEOS(End of Speech)信号を通信端末100に送信(出力)する(S305)。EOS信号は、音声認識処理の認識状態を示す認識状態情報であり、認識状態が「未認識中(待機中)」であることを示す。ここで、ステップS304の認識処理終了条件は、音声認識処理中の無音区間の継続時間が、所定時間Tを超えたか否かとすることができる。
なお、図3の「今日は・・・いい天気ですね」には、「・・・」で示す無音が含まれているが、音声認識部340は、「・・・」で示される無音の継続時間t1が、開始された音声認識処理の終了を判断するための上述の所定時間Tよりも短いため、音声認識処理を終了せずに、1サイクルの音声認識処理を継続して行っている。つまり、「今日は・・・いい天気ですね」を1サイクルの音声認識処理で行うために、文節間の無音期間t1を予めサンプリングし、文節間の無音期間t1よりも長い所定時間Tを設定することができる。なお、変換されたテキストデータは、1サイクルの音声認識処理中に例えば、変換された文字や文節毎に複数回に渡って通信端末100に送信されたり、1サイクルの音声認識処理の終わりに一括して通信端末に送信されたりするように構成することができる。
このように本実施形態の音声認識処理は、「認識処理中」と「未認識中」の2つのステータスが存在し、一対のSOS信号とEOS信号との間の区間が音声認識処理の実行中を示し、EOS信号から次のサイクルにおける音声認識処理のSOS信号までの間の区間が音声認識処理の待機中を示す(図3参照)。通信端末100の認識状態確認部114は、SOS信号を受信した後にEOS信号を受信していない場合は、サーバ装置300の音声認識処理のステータスを「認識処理中」に更新し、EOS信号を受信した後にSOS信号を受信していない場合は、サーバ装置300の音声認識処理のステータスを「未認識中」に更新する。認識状態確認部114は、音声認識処理のステータス更新情報を音声データ出力制御部113に出力する。
本実施例の音声認識部340は、通信端末100から連続して順次送信される音声データに対して音声認識処理を行うものの、音声データを受信して音声認識処理を開始し、音声認識処理中に所定時間Tの無音が継続したとき、音声認識処理を開始後の連続した無音区間に対して実行中の音声認識処理を一旦終了させて次の有音が入力されるまで待機し、有音が入力されたときに音声認識処理を改めて行う。このように構成することで、無用な音声認識処理の実行を抑制することができ、サーバ装置300の処理負荷を低減させることができる。
ここで、図3に示すように、マイク140で集音されたユーザの音声には、有音及び無音が含まれるが、通信端末100は、音声データ内に無音が含まれていても所定の時間間隔で区切られた音声パケットデータをサーバ装置300に連続して送信している。図3の例において、例えば、「今日は・・・いい天気ですね」とユーザが発したとする。「・・・」は、無音を示す。「今日は・・・いい天気ですね」という音声データは、通信端末100側で「・・・」の無音で仕切られることなく、「・・・」で表す無音も音声データとして有音データに引き続きサーバ装置300に送信される。これは、サーバ装置300側に音声認識処理のリソースを集約して通信端末100の処理負荷を低減させるために、通信端末100側では、音声データに対するVAD処理などが行われないためである。
このため、図3に示すように、通信端末100は、サーバ装置300側の1サイクルの音声認識処理が終了していても、無音の音声データをサーバ装置300に送信し続けることになり、サーバ装置300との間の通信トラフィック(通信データ量)が増加し、ネットワークに負担を掛けてしまう。そこで、本実施形態では、SOS信号及びEOS信号に基づいてサーバ装置300の音声認識処理の処理状態を確認し、音声認識処理が待機中であるときは、無音の音声データをサーバ装置300に送信しないように制御する。
図5は、本実施形態の通信端末100の音声データ出力制御を説明するための図である。図5に示すように、音量測定部112は、音声データの音量を測定し、マイク140を通じて入力された音声が無音であるか有音であるかを判別する音量チェック処理を行う。例えば、測定された音量が所定の閾値以上の場合、有音と判別し、音量が閾値未満であるとき、無音と判別することができる。音量チェック結果は、音声データ出力制御部113に出力される。
音量チェック処理において無音と判別されたとき、音声データ出力制御部113は、認識状態確認部114から入力されるステータス更新情報に基づいて、サーバ装置300側で音声認識処理の状態が「未認識中」であるか否かを判別する。音声データ出力制御部113は、音声認識処理の状態が「未認識中」のとき、無音の音声データを送信しないように制御する。
つまり、音声データ出力制御部113は、サーバ装置300からSOS信号受信後に受信されたEOS信号に基づいて、音声データが有音となるまで、言い換えれば、EOS信号を受信した後、所定の閾値以上の音量の音声データが入力されるまで、音声データの生成及び音声データのサーバ装置300への送信を禁止し、サーバ装置300に、音声データが送信されないように音声データ出力制御を行う。
図6は、本実施形態の通信端末100の音声データ出力制御の処理フローを示す図である。通信端末100は、音声認識を開始するための操作が行われると(S101)、マイク140を起動するとともに、音声データ生成処理及び音量チェック処理を行う(S102)。なお、ステップS101では、サーバ装置300との間の通信セッションを確立する通信処理を行うことができる。
通信端末100は、音声認識を開始するための操作に伴い、サーバ装置300から認識状態情報の更新処理を開始する(S103)。更新処理は、通信端末100側での音声認識を終了するための条件を満たすまで、音声データ生成処理などの他の処理とは個別に並行してSOS信号及びEOS信号が受信される度に行われる。
通信端末100は、生成された音声データの音量を測定し、マイク140を通じて入力された音声が無音であるか有音であるかを判別する(S104)。通信端末100は、測定された音量が所定の閾値以上(有音)であると判別された場合、サーバ装置300に音声データを送信する音声データ送信処理を行う(S105)。
一方、ステップS104において、音量が閾値未満(無音)であると判別されたとき、通信端末100は、ステップS106に進み、認識状態情報に基づいてサーバ装置300側の音声認識処理が「認識処理中」であるか否かを判別する。「認識処理中」であると判別された場合、通信端末100は、ステップS105に進み、サーバ装置300に音声データを送信する音声データ送信処理を行う。「認識処理中」でない(「未認識中」である)と判別された場合、通信端末100は、ステップS105をスキップし、無音の音声データを送信しないように制御する。
通信端末100は、サーバ装置300に送信した音声データに対する音声認識結果を受信すると(S107のYES)、音声認識結果を表示部160に表示する表示制御を行う(S108)。通信端末100は、音声認識を終了するための条件を満たすまで、ステップS104からステップS108を繰り返し行う(S109のNO)。音声認識を終了するための条件を満たしたとき、例えば、起動した音声認識用のアプリケーションを終了するための操作が行われたとき(S109のYES)、通信端末100は、図6に示す処理を終了する。
本実施形態によれば、通信端末100の処理性能がVAD処理を含む音声認識処理に必要なリソースに割かれないので通信端末100の処理負荷を低減できると共に、不要な音声をサーバ装置300に送信しないので、サーバ装置300との間の通信トラフィック(通信データ量)を低減させることができる。
次に、本実施形態の変形例について説明する。図7は、通信端末100の音声データ出力制御の変形例を説明するための図であり、図8は、本変形例に係る通信端末100の処理フローを示す図である。
本変形例は、図7に示すように、音声認識を開始するための操作が行われた後、有音が入力されるまでの間の無音の音声データを、サーバ装置300に送信しないように制御する。図5及び図6に示した音声データ出力制御では、音声認識を開始するための操作が行われたタイミングやマイク140で音声が集音処理を開始したタイミングで、音声データをサーバ装置300に送信していた。
このため、例えば、音声認識を開始するための操作が行われた後にサーバ装置300からSOS信号を受信した後は、無音であっても音声データがサーバ装置300に送信されてしまう(図6のステップS104のNOからステップS106のYES)。
そこで、本変形例では、音声認識を開始するための操作後、つまり、マイク140で音声データの取得処理が開始されてから、最初に所定の閾値以上の音量の音声データ(有音の音声データ)が入力されるまでの間、マイク140で集音された無音の音声データをサーバ装置300に送信しないように制御し、上述の図5及び図6に示した音声データ出力制御に加え、よりサーバ装置300との間の通信トラフィック(通信データ量)を低減させるようにしている。
まず、図8のステップS103の認識状態情報更新処理の開始時に、認識状態情報を「未認識中」に初期化する。音声認識を開始するための操作後、SOS信号を最初に受信するまでの間を「未認識中」と設定する。このように構成することで、図7に示すように、SOS信号の受信有無に関わらず、無音の音声データをサーバ装置300に送信しないようにすることができる。
次に、図8の例において、図6のステップS104及びS106と異なり、音声認識を開始するための操作後、最初に音声データを送信する際に、認識状態情報に基づいてサーバ装置300側の音声認識処理が「認識処理中」であるか否かを判別する(S104A)。そして、通信端末100は、「未認識中」であると判別されたとき、生成された音声データの音量を測定し、マイク140を通じて入力された音声が無音であるか有音であるかを判別する(S106A)。通信端末100は、測定された音量が所定の閾値未満(無音)であると判別された場合、ステップS105をスキップし、無音の音声データをサーバ装置300に送信しないように制御する。
図7の例で説明すると、音声認識を開始するための操作後、最初に音声データを送信するときは、音声認識処理のステータスが「未認識中」に初期設定されるので、音声データ出力制御部113は、音声データをサーバ装置300に送信しない。このため、サーバ装置300は、SOS信号を出力しないことになる。
そして、音声データ出力制御部113は、音声認識を開始するための操作後に未だ音声データを送信していない状態で、有音の音声データが入力されたとき、音声認識処理のステータスが「未認識中」であっても、サーバ装置300に音声データを送信する(S104AのNOからS106AのYES)。有音の音声データを受信したサーバ装置300は、SOS信号を通信端末100に送信し、音声認識処理のステータスが「認識処理中」に更新される。
一方、ステップS104Aでサーバ装置300側の音声認識処理が「認識処理中」であると判別された場合は、音声データ出力制御部113は、無音であってもそのまま音声データをサーバ装置に送信する音声データ送信処理を行う(S105)。その他の処理について、図6で説明した処理も同様であるので、同符号を付して説明を省略する。
以上、本実施形態の音声認識システムにおいて、通信端末100は、音声データに圧縮処理を施し、圧縮された音声データを音声認識処理サーバ装置300に送信することができる。このとき、音声認識処理サーバ装置300は、圧縮された音声データを伸長して音声認識処理を行うことができる。
また、通信端末100及び音声認識処理サーバ装置300の各機能は、プログラムとして構成することができる。例えば、コンピュータの不図示の補助記憶装置に格納され、CPU等の制御部が補助記憶装置に格納された各機能毎のプログラムを主記憶装置に読み出し、主記憶装置に読み出された該プログラムを制御部が実行し、本実施形態の各部の機能をコンピュータに動作させることができる。
また、上記プログラムは、コンピュータ読取可能な記録媒体に記録された状態で、コンピュータに提供することも可能である。コンピュータ読取可能な記録媒体としては、CD−ROM等の光ディスク、DVD−ROM等の相変化型光ディスク、MO(Magnet Optical)やMD(Mini Disk)などの光磁気ディスク、フロッピー(登録商標)ディスクやリムーバブルハードディスクなどの磁気ディスク、コンパクトフラッシュ(登録商標)、スマートメディア、SDメモリカード、メモリスティック等のメモリカードが挙げられる。また、本発明の目的のために特別に設計されて構成された集積回路(ICチップ等)等のハードウェア装置も記録媒体として含まれる。
なお、本発明の実施形態を説明したが、当該実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 通信端末
110 制御部(CPU)
111 A/D変換部
112 音量測定部
113 音声データ出力制御部
114 認識状態確認部
115 表示制御部
120 記憶部
130 通信部
140 マイク
150 スピーカー
160 表示部
170 操作部
300 音声認識処理サーバ装置
310 制御部(CPU)
320 記憶部
330 通信部
340 音声認識部

Claims (4)

  1. 音声認識処理を行う音声認識処理サーバ装置にユーザが発した音声データを送信し、前記音声データに対する音声認識処理結果を前記音声認識処理サーバ装置から受信する通信端末であって、
    音声入力部によって取得された音声データの音量を測定する音量測定部と、
    前記音声データを前記音声認識処理サーバ装置に送信する音声データ出力制御部と、を有し、
    前記音声データ出力制御部は、順次入力される前記音声データの音量が無音を示す所定の閾値未満であり、かつ前記音声認識処理サーバ装置から受信する前記音声データに対する音声認識処理の認識処理状態が待機中を示す未認識中である場合、無音の前記音声データを前記音声認識処理サーバ装置に送信しないように制御するとともに、
    前記認識処理状態を示す信号は、前記音声データの受信に伴って音声認識処理の開始を示すSOS信号と、前記SOS信号と対となり、開始された音声認識処理において無音の前記音声データが所定時間継続したときに音声認識処理を終了することを示すEOS信号と、を含み、
    前記音声データ出力制御部は、前記EOS信号を受信した後、前記所定の閾値以上の音量の前記音声データが入力されるまで、前記音声データを前記音声認識処理サーバ装置に送信しないように制御することを特徴とする通信端末。
  2. 前記音声データ出力制御部は、前記音声入力部で前記音声データの取得処理が開始されてから前記所定の閾値以上の音量の前記音声データが入力されるまでの間、無音を示す前記音声データを前記音声認識処理サーバ装置に送信しないように制御することを特徴とする請求項に記載の通信端末。
  3. 音声認識処理を行う音声認識処理サーバ装置にユーザが発した音声データを送信し、前記音声データに対する音声認識処理結果を前記音声認識処理サーバ装置から受信する通信端末によって実行されるプログラムであって、
    音声入力部によって取得された音声データの音量を測定する第1機能と、
    前記音声データを前記音声認識処理サーバ装置に送信する第2機能と、を含み、
    前記第2機能は、順次入力される前記音声データの音量が無音を示す所定の閾値未満であり、かつ前記音声認識処理サーバ装置から受信する前記音声データに対する音声認識処理の認識処理状態が待機中を示す未認識中である場合、無音の前記音声データを前記音声認識処理サーバ装置に送信しないように制御するとともに、
    前記認識処理状態を示す信号は、前記音声データの受信に伴って音声認識処理の開始を示すSOS信号と、前記SOS信号と対となり、開始された音声認識処理において無音の前記音声データが所定時間継続したときに音声認識処理を終了することを示すEOS信号と、を含み、
    前記第2機能は、前記EOS信号を受信した後、前記所定の閾値以上の音量の前記音声データが入力されるまで、前記音声データを前記音声認識処理サーバ装置に送信しないように制御することを特徴とするプログラム。
  4. 音声認識処理を行う音声認識処理サーバ装置と、ユーザが発した音声データを前記音声認識処理サーバ装置に送信し、前記音声データに対する音声認識処理結果を前記音声認識処理サーバ装置から受信する通信端末と、を含む音声認識システムであって、
    前記音声認識処理サーバ装置は、前記受信した音声データに対する音声認識処理の認識処理状態を示す信号を前記通信端末に送信し、
    前記通信端末は、
    音声入力部によって取得された音声データの音量を測定する音量測定部と、
    前記音声データを前記音声認識処理サーバ装置に送信する音声データ出力制御部と、を有し、
    前記音声データ出力制御部は、順次入力される前記音声データの音量が無音を示す所定の閾値未満であり、かつ前記認識処理状態が音声認識処理の待機中を示す未認識中である場合、前記音声データを前記音声認識処理サーバ装置に送信しないように制御するとともに、
    前記認識処理状態を示す信号は、前記音声データの受信に伴って音声認識処理の開始を示すSOS信号と、前記SOS信号と対となり、開始された音声認識処理において無音の前記音声データが所定時間継続したときに音声認識処理を終了することを示すEOS信号と、を含み、
    前記音声データ出力制御部は、前記EOS信号を受信した後、前記所定の閾値以上の音量の前記音声データが入力されるまで、前記音声データを前記音声認識処理サーバ装置に送信しないように制御することを特徴とする音声認識システム。
JP2015193953A 2015-09-30 2015-09-30 通信端末及び音声認識システム Active JP6549009B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015193953A JP6549009B2 (ja) 2015-09-30 2015-09-30 通信端末及び音声認識システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015193953A JP6549009B2 (ja) 2015-09-30 2015-09-30 通信端末及び音声認識システム

Publications (2)

Publication Number Publication Date
JP2017068061A JP2017068061A (ja) 2017-04-06
JP6549009B2 true JP6549009B2 (ja) 2019-07-24

Family

ID=58492433

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015193953A Active JP6549009B2 (ja) 2015-09-30 2015-09-30 通信端末及び音声認識システム

Country Status (1)

Country Link
JP (1) JP6549009B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7130201B2 (ja) * 2018-01-18 2022-09-05 株式会社ユピテル 装置及びプログラム等
JP7091745B2 (ja) * 2018-03-19 2022-06-28 株式会社リコー 表示端末、プログラム、情報処理システム及び方法
KR20200043075A (ko) * 2018-10-17 2020-04-27 삼성전자주식회사 전자 장치 및 그 제어방법, 전자 장치의 음향 출력 제어 시스템
JP7473325B2 (ja) * 2019-11-12 2024-04-23 株式会社シーイーシー 音声情報生成装置、音声情報生成方法及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225592A (ja) * 1994-02-14 1995-08-22 Matsushita Electric Ind Co Ltd 有音区間検出装置
JP4425055B2 (ja) * 2004-05-18 2010-03-03 日本電信電話株式会社 クライアント・サーバ音声認識方法、これに用いる装置、そのプログラム及び記録媒体
JP5691693B2 (ja) * 2011-03-16 2015-04-01 三菱電機株式会社 エレベーター制御システム
JP2014142566A (ja) * 2013-01-25 2014-08-07 Alpine Electronics Inc 音声認識システムおよび音声認識方法

Also Published As

Publication number Publication date
JP2017068061A (ja) 2017-04-06

Similar Documents

Publication Publication Date Title
JP6689664B2 (ja) モバイルデバイスのためのスマートオーディオロギングのシステムおよび方法
JP6113302B2 (ja) 音声データの伝送方法及び装置
CN104168353B (zh) 蓝牙耳机及其语音交互控制方法
CN108141498B (zh) 一种翻译方法及终端
KR100819928B1 (ko) 휴대 단말기의 음성 인식장치 및 그 방법
JP6139598B2 (ja) オンライン音声認識を処理する音声認識クライアントシステム、音声認識サーバシステム及び音声認識方法
CN110047481B (zh) 用于语音识别的方法和装置
KR101422020B1 (ko) 음성 인식 방법 및 장치
WO2014208231A1 (ja) ローカルな音声認識を行なう音声認識クライアント装置
JP6549009B2 (ja) 通信端末及び音声認識システム
US20210241768A1 (en) Portable audio device with voice capabilities
JP2004527006A (ja) 分散型音声認識システムにおける音声アクティブな状態を送信するためのシステム及び方法
JP2017535809A (ja) サウンド検出モデルを生成するためのサウンドサンプル検証
CN102903361A (zh) 一种通话即时翻译系统和方法
JPWO2013027360A1 (ja) 音声認識システム、認識辞書登録システム及び音響モデル識別子系列生成装置
CN103514882A (zh) 一种语音识别方法及系统
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
JP6448950B2 (ja) 音声対話装置及び電子機器
JP2018049080A (ja) 通信システム、情報処理装置、プログラム、通信方法
JP5251588B2 (ja) 携帯電話端末装置及び通話伝達の判断方法
JP2015100054A (ja) 音声通信システム、音声通信方法及びプログラム
JP2003241788A (ja) 音声認識装置及び音声認識システム
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
KR100574883B1 (ko) 비음성 제거에 의한 음성 추출 방법
KR20030092877A (ko) 이동 통신망을 이용한 메시지를 전송하는 방법 및 시스템

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170926

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180914

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190626

R150 Certificate of patent or registration of utility model

Ref document number: 6549009

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150