JP2018045193A - 通信端末、音声変換方法、及びプログラム - Google Patents

通信端末、音声変換方法、及びプログラム Download PDF

Info

Publication number
JP2018045193A
JP2018045193A JP2016181923A JP2016181923A JP2018045193A JP 2018045193 A JP2018045193 A JP 2018045193A JP 2016181923 A JP2016181923 A JP 2016181923A JP 2016181923 A JP2016181923 A JP 2016181923A JP 2018045193 A JP2018045193 A JP 2018045193A
Authority
JP
Japan
Prior art keywords
voice
data
conversion
audio
reliability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016181923A
Other languages
English (en)
Other versions
JP6756211B2 (ja
Inventor
章敬 中島
Akinori Nakajima
章敬 中島
藤田 健
Takeshi Fujita
健 藤田
厚 小久保
Atsushi Kokubo
厚 小久保
未友 前田
Miyu Maeda
未友 前田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2016181923A priority Critical patent/JP6756211B2/ja
Publication of JP2018045193A publication Critical patent/JP2018045193A/ja
Application granted granted Critical
Publication of JP6756211B2 publication Critical patent/JP6756211B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】 音声変換サービスにおいて、より長い音声の音声データを変換することで、より信頼度の高い結果が得られる傾向にある。しかしながら、音声変換サービスに、より長い音声の音声データの変換を要求することで、変換要求から結果の出力までのタイムラグが大きくなり、リアルタイム性が失われる。【解決手段】 端末10の送受信部11は、音声入力部13によって生成される音声データのうち、第1の長さの音声の音声データを、音声変換サービス30へ送信する。端末10の送受信部11は、音声変換サービス30によって音声データから変換されたテキストデータ、及び変換の信頼度を示す情報を受信する。端末10の送受信部11は、受信される信頼度に応じて、第2の長さの音声の音声データを、音声変換サービス30へ送信する。【選択図】図8

Description

本発明は、通信端末、音声変換方法、及びプログラムに関する。
従来、データやアプリケーション等を、通信ネットワークを介してクライアントに提供するクラウドサービスが知られている。クラウドサービスには、例えば、音声を認識し、分析して、テキスト化するものがある。クライアントが、例えば、会議の音声データを、このクラウドサービスへ送信して変換要求すると、クラウドサービスは、会議の音声データからテキストへ変換してクライアントへ返す。クライアントは、受信したテキストを会議の議事録等として利用することができる。
特許文献1には、音声データを入力して音声認識処理を行い、テキストデータを生成する生成手段と、生成手段により生成されたテキストデータが音声データに即しているか否かの正誤判定を受け付ける第1の受付手段と、第1の受付手段により受け付けられた前記テキストデータの正誤判定の結果に基づいて、テキストデータの編集を受け付ける第2の受付手段と、を備える音声書起支援システムが開示されている。また、特許文献1には、音声認識サーバは、息継ぎ時の発話が途切れている箇所を、発話区間として検出し、検出された発話区間毎に、音声認識の処理を実行してテキストデータを生成することが開示されている。
音声変換サービスにおいて、より長い音声の音声データを変換することで、より信頼度の高い結果が得られる傾向にある。しかしながら、音声変換サービスに、より長い音声の音声データの変換を要求することで、変換要求と結果の出力までのタイムラグが大きくなり、リアルタイム性が失われるという課題が生じる。
請求項1に係る発明の通信端末は、入力された音声から、音声データを生成する生成手段と、前記生成手段によって生成される音声データのうち、第1の長さの音声の音声データを、音声変換システムへ送信する送信手段と、前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信手段と、を有し、前記送信手段は、前記受信手段によって受信される信頼度に応じて、前記生成手段によって生成される音声データのうち、前記第1の長さとは異なる第2の長さの音声の音声データを、前記音声変換システムへ送信する。
以上説明したように本発明によれば、音声認識サービスにおいて、信頼度を維持しつつ、リアルタイム性の低下を防ぐことが可能になるという効果を奏する。
本発明の一実施形態に係る通信システムの概略図である。 一実施形態に係る端末のハードウェア構成図である。 一実施形態に係る音声変換サービスのハードウェア構成図である。 一実施形態に係る端末、及び音声変換サービスの各機能ブロック図である。 端末が管理する各管理テーブルを示す概念図である。 図6の(A)は、端末を用いた会議における準備段階の処理の一例を示すシーケンス図である。図6の(B)は、端末において音声データを生成する処理の一例を示すシーケンス図である。 図7の(A)は、音声をテキストに変換する処理のうち端末が実行する処理一例を示すフロー図である。図7の(B)は、音声をテキストに変換する処理のうち、端末及び音声変換サービスに関わる処理の一例を示すシーケンス図である。 ディスプレイの表示例である。
以下、本発明の実施形態について説明する。
<<通信システムの概略>>
図1は、本発明の一実施形態に係る通信システムの概略図である。図1に示されているように、通信システム1は、通信端末10、及び音声変換サービス30によって構築されている。以下、通信端末10を単に端末10と表す。端末10、及び音声変換サービス30は、通信ネットワーク2を介して接続されている。通信ネットワーク2の一部、又は全部は、例えば、インターネット、LAN(Local Area Network)、又は専用線によって構築されていても良い。また、通信ネットワーク2の一部、又は全部は、有線の通信網によって構築されていても、無線の通信網によって構築されていても良い。
音声変換サービス30は、クライアントとしての端末10による要求に応じて、音声認識の技術を利用して、音声データをテキストに変換するサーバである。音声変換サービス30は、クラウド上の外部サービスであっても、ASP(Application Service Provider)であっても、WEBサービスであっても良く、特に限定されない。
端末10は、音声変換サービス30を利用するクライアントである。端末10は、入力される音声から音声データを生成し、生成された音声データを音声変換サービス30へ送信する。端末10は、音声変換サービス30によって音声データから変換されたテキストデータを受信して出力する。本実施形態において、端末10は、インタラクティブホワイトボード(IWB: Interactive Whiteboard)である例を示す。しかしながら、端末10は、これに限定されず、例えば、タブレット、スマートフォン、PC(personal computer)等であっても良い。
図1では、通信システム1において、音声変換サービス30が一つの装置である例を示しているが、音声変換サービス30は、複数の装置により構築されていても良い。また、通信システム1において、音声変換サービス30による音声変換結果を利用する、例えば、人工知能(AI: artificial intelligence)サービス等の他のサービスが、通信ネットワーク2に接続されていても良い。また、通信システム1において、端末10は1台ではなく複数であっても良い。この場合、各端末10は、それぞれ同種であっても異種であっても良い。また、複数の端末10の一台、又はそれぞれが音声変換サービスを含んでいても良い。
<<ハードウェア構成>>
次に、通信システム1を構成する各装置のハードウェア構成を説明する。
まず、図2を用いて、一実施形態に係る端末のハードウェア構成を説明する。なお、図2は、一実施形態に係る端末のハードウェア構成図である。
図2に示されているように、端末10は、端末10全体の動作を制御するCPU(Central Processing Unit)201、IPL等のCPU201の駆動に用いられるプログラムを記憶したROM202、CPU201のワークエリアとして使用されるRAM203、端末用のプログラム等の各種データを記憶するSSD204、通信ネットワーク2との通信を制御するネットワークI/F205、及び、USBメモリ5との通信を制御する外部記憶コントローラ206を備えている。さらに、端末10は、CPU201の制御に従って被写体を撮像するカメラ207と、このカメラ207の駆動を制御する撮像素子I/F208と、ノートPC6のディスプレイに対して映像情報を静止画又は動画として表示させるキャプチャデバイス211、グラフィクスを専門に扱うGPU(Graphics Processing Unit)212、及び、GPUからの出力画像をディスプレイ3へ出力するために画面表示の制御、及び管理を行うディスプレイコントローラ213を備えている。
さらに、端末10は、接触センサ215の処理を制御するセンサコントローラ214、ディスプレイ3上に電子ペン4やユーザの手H等が接触したことを検知する接触センサ215を備えている。一実施形態における、接触センサ215は、赤外線遮断方式による座標の入力、及び座標の検出を行う。この座標の入力、及び座標を検出する方法は、ディスプレイ3の上側両端部に設置された2つ受発光装置が、ディスプレイ3に平行して複数の赤外線を放射し、ディスプレイ3の周囲に設けられた反射部材によって反射されて、受光素子が放射した光の光路と同一の光路上を戻って来る光を受光する方法である。接触センサ215は、物体によって遮断された2つの受発光装置が放射した赤外線のID(Identification)をセンサコントローラ214に出力し、センサコントローラ214が、物体の接触位置である座標位置を特定する。なお、以下に示す全ての各IDは、識別情報の一例である。
接触センサ215の検知方式は、赤外線遮断方式に限らず、静電容量の変化を検知することにより接触位置を特定する静電容量方式、対向する2の抵抗膜の電圧変化によって接触位置を特定する抵抗膜方式、接触物体が表示部に接触することによって生じる電磁誘導を検知して接触位置を特定する電磁誘導方式であっても良い。また、接触センサ215は、カメラを用いて、接触を判断し、座標位置を特定するものであっても良い。
また、端末10は、電子ペンコントローラ216を備えている。この電子ペンコントローラ216は、電子ペン4と通信することで、ディスプレイ3へのペン先のタッチやペン尻のタッチの有無を判断する。なお、電子ペンコントローラ216が、電子ペン4のペン先、及びペン尻だけでなく、電子ペン4のユーザが握る部分や、その他の電子ペンの部分のタッチの有無を判断するようにしてもよい。
さらに、端末10は、CPU101の制御に従って、外部のマイク222、及び外部のスピーカ223との間で音声信号の入出力を処理する音声入出力I/F224と、ユーザの操作を受け付ける操作ボタン225と、端末10の電源のON/OFFを切り換えるための電源スイッチ226と、を備えている。なお、マイク222及びスピーカ223のいずれかが、端末10に内蔵されていても良い。
さらに、端末10は、上記各構成要素間を相互に電気的に接続するためのアドレスバスやデータバス等のバスライン230を備えている。
なお、端末用のプログラムは、CD−ROM等のコンピュータで読み取り可能な記録媒体や、ネットワーク上のサーバに記録して流通やダウンロードさせるようにしてもよい。
図3は、一実施形態に係る音声変換サービス30のハードウェア構成図である。音声変換サービス30は、音声変換サービス30全体の動作を制御するCPU501、IPL等のCPU501の駆動に用いられるプログラムを記憶したROM502、CPU501のワークエリアとして使用されるRAM503、音声変換サービス30用のプログラム等の各種データを記憶するHD504、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御するHDD(Hard Disk Drive)505、フラッシュメモリ等の記録メディア506に対するデータの読み出し又は書き込み(記憶)を制御するメディアドライブ507、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示するディスプレイ508、通信ネットワーク2を利用してデータ通信するためのネットワークI/F509、文字、数値、各種指示などの入力のための複数のキーを備えたキーボード511、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行うマウス512、着脱可能な記録媒体の一例としてのCD−ROM(Compact Disc Read Only Memory)513に対する各種データの読み出し又は書き込みを制御するCD−ROMドライブ514、及び、上記各構成要素を図3に示されているように電気的に接続するためのアドレスバスやデータバス等のバスライン510を備えている。
なお、音声変換サービス30が複数の装置、又はシステムによって構築される場合、複数の装置、又はシステムは、それぞれ図3のハードウェア構成を有する。
<<機能構成>>
次に、本実施形態の機能構成について説明する。図4は、一実施形態に係る通信システム1を構成する端末10、及び音声変換サービス30の機能ブロック図である。図4では、端末10、及び音声変換サービス30が、通信ネットワーク2を介してデータ通信することができるように接続されている。
<端末の機能構成>
端末10は、送受信部11、操作入力受付部12、音声入力部13、音声処理部14、表示制御部15、及び記憶・読出部19を有している。これら各部は、図2に示されている各構成要素のいずれかが、ROM202からRAM203上に展開されたプログラムに従ったCPU201からの命令によって動作することで実現される機能である。また、端末10は、図2に示されているROM202、RAM203、SSD204によって構築される記憶部1000を有している。
(分割管理テーブル)
図5の(A)は、分割管理テーブルを示す概念図である。記憶部1000には、分割管理テーブルによって分割管理DB1001が構築される。分割管理テーブルでは、言語を示す情報に関連付けて、その言語の音声から音声データを生成するときに、音声を何秒ごとに分割するかを示す分割時間を示す情報が管理されている。例えば、図5(A)の分割管理テーブルによると、英語の音声から音声データを生成するときに、2秒ごとの音声の音声データを生成することを示す。なお、分割した音声から生成される音声データを、以下、分割音声データと表す。
英語は、日本語と比較して同音異義語が少ないため、テキスト変換するときに、短い時間の音声データであっても信頼度の高い結果が得られやすい。このため、分割管理テーブルでは、分割音声データがテキスト変換に用いられることを考慮して、英語の分割時間が、日本語の分割時間よりも短く設定されている。但し、図5の(A)の分割時間は一例であって、言語ごとに任意に設定される。また、図5の(A)に記載の言語は一例であって、これに限定されない。
(音声管理部)
図5の(B)は、音声管理部を示す概念図である。記憶部1000には、音声管理部1002が構築される。音声管理部1002の所定の記憶領域には、分割音声データがネクストポインタに関連付けられて管理されている。なお、図5の(B)には、説明のため、分割音声データのフィールドにはテキストが記録されているが、実際はテキストに対応する音声のデータが記録されている。ネクストポインタは、次に記録される分割音声データが格納される記憶領域を示す。なお、本実施形態では、音声は入力順に分割されて、記憶領域の"S1, S2, S3,…"で示される場所へ順に記録される。これにより、図5の(B)の音声管理部において、先に入力された音声に対応する音声データに対し、後に入力される音声データよりも小さい数値を含むネクストポインタが割り当てられている。
(端末の各機能構成)
次に、図2及び図4を用いて、端末10の各機能構成について詳細に説明する。なお、以下では、端末10の各機能構成を説明するにあたって、図2に示されている各構成要素のうち、端末10の各機能構成を実現させるための主な構成要素との関係も説明する。
送受信部11は、CPU101からの命令、及びネットワークコントローラ205によって実現され、通信ネットワーク2を介して、他の装置又はシステム等と各種情報の送受信を行う。
操作入力受付部12は、CPU101からの命令、並びに接触センサ215、及び電子ペンコントローラ216によって実現され、ユーザによる各種入力を受け付けたり、ユーザによる各種選択を受け付けたりする。
音声入力部13は、音声入出力I/F224によって実現され、マイク222で集音した音声を、音声データとして端末10へ入力する。
音声処理部14は、CPU201からの命令によって実現され、音声変換サービス30へ送信する音声の管理等、各種音声に係る処理を実行する。
表示制御部15は、CPU101からの命令、及びディスプレイコントローラ213によって実現され、ディスプレイ120から画像を表示するための制御を行う。
記憶・読出部19は、CPU101からの命令によって実現され、記憶部1000に各種データを記憶したり、記憶部1000に記憶された各種データを読出したりする処理を行う。
<音声変換サービスの機能構成>
音声変換サービス30は、送受信部31、変換部32、及び記憶・読出部39を有している。これら各部は、図3に示されている各構成要素のいずれかが、HD504からRAM503上に展開された音声変換サービス30用のプログラムに従ったCPU501からの命令によって動作することで実現される機能である。また、音声変換サービス30は、HD504により構築される記憶部5000を有している。
(音声変換サービスの各機能構成)
次に、音声変換サービス30の各機能構成について詳細に説明する。なお、以下では、音声変換サービス30の各機能構成を説明するにあたって、図3に示されている各構成要素のうち、音声変換サービス30の各機能構成を実現させるための主な構成要素との関係も説明する。
送受信部31は、CPU501からの命令、及びネットワークI/F509によって実現され、通信ネットワーク2を介して他の装置又はシステムと各種情報の送受信を行う。
変換部32は、CPU501からの命令によって実現され、端末10による音声データからテキストへの変換要求に応じて、音声データをテキストに変換する。
記憶・読出部39は、CPU501からの命令及びHDD505によって実現され、又はCPU501からの命令によって実現され、記憶部5000に各種データを記憶したり、記憶部5000に記憶された各種データを抽出したりする処理を行う。
<<実施形態の処理>>
続いて、端末10、及び音声変換サービス30の処理について説明する。まずは、端末10を用いた会議における準備段階の処理について説明する。図6の(A)は、端末10を用いた会議における準備段階の処理の一例を示すシーケンス図である。なお、会議は、音声を用いた任意のコミュニケーションに置き換え可能である。
端末10の操作入力受付部12は、ユーザによる入力操作に応じて、会議で用いる言語の指定の入力を受け付ける(ステップS21)。以下、ステップS21で言語として「英語」の指定の入力が受け付けられた場合について説明する。端末10の記憶・読出部19は、ステップS21で入力された言語「英語」を検索キーとして、分割管理テーブルを検索し、対応する分割時間「2秒」を読み出す。これにより、音声処理部14は、入力される音声から分割音声データを生成するときの音声の分割時間を、読み出された「2秒」に設定する(ステップS22)。
続いて、端末10を用いた会議において、会議の音声から音声データを生成する処理について説明する。図6の(B)は、端末10において音声データを生成する処理の一例を示すシーケンス図である。
端末10の音声入力部13は、マイク222で集音された会議の参加者の発言として、例えば、"Because one can never come to understand the nature of mind and its laws of working by listening to lectures or reading text books alone"という音声の入力を受け付ける(ステップS31)。端末10の音声入力部13は、入力された音声が、ステップS22で設定された分割時間「2秒」ごとに分割されたときの最初の音声"Because one can"の分割音声データ、続く「2秒」の音声"never come to understand the"の分割音声データ等を順次、生成する(ステップS32)。音声データの形式は、特に限定されないが、例えば、Windows Media(登録商標又は商標) Video (WMV)である。
端末10の音声入力部13は、ステップS32で生成された分割音声データを、ネクストポインタに関連付けたリスト構造により、音声管理部1002に記憶することにより、分割音声データをバッファリングする(ステップS33)。例えば、音声管理部1002の記憶領域"S1, S2"に分割音声データ"D1, D2"を記憶させるとき、音声入力部13は、
*head = *S1
分割音声データS1{
data:分割音声データD1
*next : *S2
}
分割音声データS2{
data:分割音声データD2
*next : null
}
の形式で分割音声データをバッファリングすることができる。この例のリスト構造は、最初のデータを指すネクストポインタ"head"を持つ。最初の分割音声データが、例えば、記憶領域"S1"にあるとき、"head"は"S1"となる。ネクストポインタは次のデータが格納される記憶領域の場所を指し示す。この例で、記憶領域"S1"に格納される最初の音声の分割音声データが持つネクストポインタは"S2"となり、記憶領域S2に格納される最後の分割音声データが持つネクストポインタは"NULL"となる。上記の例文の音声を記憶させる場合、音声入力部13は、例えば、ネクストポインタ"head"として"S1"を音声管理部1002に記録し、音声"Because one can"の分割音声データを、ネクストポインタ"S2"に関連付けて音声管理部1002の記憶領域"S1"に記録し、続いて、音声"never come to understand the"の分割音声データをネクストポインタ"S3"に関連付けて音声管理部1002の記憶領域S2に順に記録する。なお、図5の(B)は、リスト構造のうち分割音声データ、及びネクストポイントを抽出して、概念的に表したものである。このように、ネクストポインタを用いたリスト構造により分割音声データをバッファリングすることで、各分割音声データについて、次に入力された音声により生成された分割音声データを端末10において特定可能になる。
ステップS32、及びステップS33の処理は、それぞれ先のステップの処理が完了するのを待つことなく実行される。これにより、ステップS31で音声が入力中であっても、端末10において、分割音声データの生成、及びバッファリングがリアルタイムに実行される。
続いて、端末10において集音された音声をテキストに変換する処理について説明する。図7の(A)は、音声をテキストに変換する処理のうち端末10が実行する処理一例を示すフロー図である。図7の(B)は、音声をテキストに変換する処理のうち、端末10及び音声変換サービス30に関わる処理の一例を示すシーケンス図である。
まず、端末10の音声処理部14は、音声管理部1002において管理されている分割音声データから、変換用の音声データを編集する(ステップS41)。この処理で、音声処理部14は、音声管理部1002において管理されている分割音声データのうち、最も小さいネクストポインタが指す音声”Because one can”が記録された分割音声データを、変換用の音声データとして取得する。なお、本実施形態では、音声を入力順に分割して、記憶領域の"S1, S2, S3,…"で示される場所へ順に記録していくことから、最も小さいネクストポインタが指す音声とは、記録されている音声のうち入力順の最先のものを示す。
続いて、端末10の送受信部11は、変換用の音声データをテキストデータに変換するための変換要求を音声変換サービス30へ送信する(ステップS42)。変換要求には、ステップS41で編集された変換用の音声データが含まれる。
音声変換サービス30の送受信部31は、端末10によって送信された変換要求を受信する。音声変換サービス30の変換部32は、変換要求に含まれる変換用の音声データを音声認識によりテキストに変換する(ステップS43)。音声データをテキストに変換する方法としては、特に限定されないが、発話を記録した学習用データから音声の特徴を蓄積し、認識対象となる入力音声から抽出された特徴と蓄積された特徴とを比較しながら、最も近い単語を認識結果として出力する方法が用いられる。なお、学習用データは、記憶部3000に記憶されている。
ステップS43の処理で、音声変換サービス30の変換部32は、変換されたテキストの信頼度を出力する。信頼度は、例えば、学習用データと、音声データの特徴の類似度として、最低の0から最高の1の値で出力される。信頼度が所定の閾値として、例えば、0.8に満たない場合、変換部32は、他の変換候補のテキスト、及びこのテキストに対応する信頼度を出力する。以下、ステップS43で、変換部32が、テキスト”Because one can”、及びこのテキストの信頼度「0.48」、並びに他の変換候補のテキスト”Because won can”、及びこのテキストの信頼度「0.38」を出力した場合について説明を続ける。
音声変換サービス30の送受信部31は、ステップS43で出力された2つのテキスト、及び信頼度の組を、変換要求の要求元の端末10へ送信する。端末10の送受信部11は、音声変換サービス30によって送信された2つのテキスト、及び信頼度の組を受信する(ステップS44)。
図8の(A)は、テキスト受信後の端末10におけるディスプレイ3の表示例である。端末10の表示制御部15は、音声変換サービス30から送られてきたテキストのうち最も信頼度の高いテキスト”Because one can”、及びこのテキストの信頼度を示すアイコンI1をディスプレイ3へ出力することで、ディスプレイ3の表示を更新する(ステップS45)。なお、アイコンI1は、信頼度が0.6以下であることを示す。この状態で、ユーザがアイコンI1にカーソルを合わせる操作をすると、表示制御部15は、音声変換サービス30から送られてきた2つのテキスト、及びこれらのテキストの信頼度の組をディスプレイ3から表示させる。
なお、図8の(B)は、端末10が、音声変換サービス30から、テキスト”Because one can”、及びこのテキストの信頼度「0.68」、並びに他の変換候補のテキスト”Because won can”、及びこのテキストの信頼度「0.58」を受信した場合の、ステップS45におけるディスプレイ3の表示例である。この例では、端末10の表示制御部15は、音声変換サービス30から送られてきたテキストのうち最も信頼度の高いテキスト”Because one can”、及びこのテキストの信頼度を示すアイコンI2をディスプレイ3へ出力する。アイコンI2は、信頼度が0.6より大きく0.7以下であることを示す。このように、端末10の表示制御部15は、信頼度に応じて表示させるアイコンを変更することで、ユーザに直感的にテキストの信頼度を認識させることができる。
続いて、音声処理部14は、音声管理部1002で管理されている分割音声データのうち、最も小さいネクストポインタが指す音声”Because one can”を含む音声データに対して何回テキストに変換したかを記憶部1000に記憶することでカウントする(ステップS46)。ここまで、”Because one can”を含む音声データは、1回テキストに変換されているので、記憶部1000には「1」が記憶される。
端末10の音声処理部14は、音声変換サービス30から送られてきたテキストのうち最も信頼度の高いテキスト”Because one can”の信頼度「0.48」が所定の閾値αとして、例えば、0.8以上であるか判断する(ステップS47)。なお、閾値αは0.8に限定されず、所望の処理速度、及び信頼性に応じて任意に設定される。
ステップS47でNOと判断されると、端末10の音声処理部14は、音声管理部1002で管理されている分割音声データのうち、最も小さいネクストポインタが指す音声”Because one can”を含む音声データに対して変換要求した回数が所定の閾値Nとして3回以上であるか判断する(ステップS48)。なお、閾値Nは3回に限定されず、所望の処理速度、及び信頼性に応じて任意に設定される。先のステップS46で、変換回数は「1」とカウントされている。このため、ステップS48でNOと判断され、端末10による処理はステップS41に戻る。
端末10の音声処理部14は、N回目のステップS41の処理で、音声管理部1002において管理されている最も小さいネクストポインタが指す分割音声データからN番目に小さいネクストポインタが指す分割音声データまでを順に結合した音声データを変換用の音声データとして取得する。即ち、2回目のステップS41の処理では、音声処理部14は、最も小さいネクストポインタが指す”Because one can”の分割音声データ、及び2番目に小さいネクストポインタが指す音声"never come to understand the”の分割音声データが結合された、音声”Because one can never come to understand the”の音声データを変換用の音声データとして取得する。
続いて、2回目のステップS42乃至S44の処理で、1回目のステップS42乃至S44の処理と同様にして、端末10は、変換用の音声データをテキストに変換するための変換要求を音声変換サービス30へ送信する。これにより、端末10は、音声変換サービス30から、音声データから変換されたテキスト、及び信頼度の組を受信する。
なお、音声変換サービス30は、2回目のテキスト変換では、1回目のテキスト変換に用いた音声よりも長い音声の音声データを用いるので、音声に含まれるより多くの単語の関連性を考慮して信頼度を算出できる。例えば、音声変換サービス30は、”one"と"come"を同じ文で使用される確率が、”won"と"come"を同じ文で使用される確率よりも高いことを学習していれば、変換候補のうち、”Because one can never come to understand the”の信頼度を、”Because won can never come to understand the”の信頼度よりも大きい値として出力することができる。これにより、テキスト変換の信頼性が向上する。以下、2回目のテキスト変換処理で、音声変換サービス30が、変換結果としてテキスト”Because one can never come to understand the”、及びこのテキストの信頼度「0.92」を出力し、端末10がこれを受信した場合について説明する。
図8の(C)は、2回目のテキストの受信後の端末10におけるディスプレイの表示例である。2回目のステップS45で、端末10の表示制御部15は、音声変換サービス30から送られてきたテキスト”Because one can never come to understand the”、及びこのテキストの信頼度を示すアイコンI3をディスプレイ3へ出力する。なお、アイコンI3は、信頼度が0.8以上であることを示す。
続いて、2回目のステップS46の処理で、音声処理部14は、音声管理部1002において管理されている最も小さいネクストポインタが指す音声”Because one can”を含む音声データの変換回数「2」を記憶部1000に記憶することでカウントする。
続いて、2回目のステップS47の処理で、端末10の音声処理部14は、音声変換サービス30から送られてきたテキスト”Because one can”の信頼度「0.96」が所定の閾値α「0.8」以上である(YES)と判断する。
ステップS47、又はステップS48でYESと判断された場合、記憶・読出部19は、変換用の音声データの生成に用いられた分割音声データを音声管理部1002から削除する(ステップS49)。なお、ステップS41の処理が繰り返し実行された場合、変換用の音声データとは、最終のループで生成された変換用の音声データである。例えば、2回目のステップS41で音声”Because one can never come to understand the”の変換用音声データが生成され、2回目のステップS47でYESと判断された場合、記憶・読出部19は、音声”Because one can”の分割音声データ、及び音声”never come to understand the”の分割音声データを音声管理部1002から削除する。これにより、音声管理部1002において管理される分割音声データのうち最も小さいネクストポインタが指す音声は、"nature of mind and its law"に係るものになるので、端末10が、次に、ステップS41を実行するときには、"nature of mind and its law"の分割音声データが取得されることになる。
続いて、記憶・読出部19は、ステップS44で音声変換サービス30から送られてきた信頼度が0.8以上のテキストを記憶部1000に記憶させることにより、音声から変換されたテキストを確定させる(ステップS51)。
なお、上記の実施形態では、同音異義語を含む音声”Because one can”の1回目のテキスト変換で信頼度が0.8以上の結果が得られず、音声”Because one can”に、音声”can never come to understand the”が追加された音声による2回目のテキスト変換で、変換結果が確定した例を説明した。但し、同音異義語を含まないような場合には、短い音声であっても1回のテキストへの変換で信頼度が0.8以上の結果が得られる可能性は高まる。このように、本実施形態の音声変換方法によると、短い音声をテキスト変換することで、リアルタイム性が向上するとともに、信頼性が所定の閾値に満たない場合には組み合わせた音声をテキスト変換することで信頼性が向上する。
<<実施形態の変形例A>>
続いて、実施形態の変形例Aについて上記実施形態と異なる点を説明する。表1は、実施形態の変形例Aにおける分割管理テーブルの一例を示す。変形例Aの分割管理テーブルでは、言語を示す情報に関連付けて、音声を分割して音声データを生成するときの各音声データのデータ量を示す分割データ量が管理されている。
Figure 2018045193
実施形態の変形例Aでは、ステップS22で、端末10の記憶・読出部19は、ステップS21で入力された言語を検索キーとして、分割管理テーブルを検索し、対応する分割データ量を読み出す。
続いて、ステップS32で、端末10の音声入力部13は、入力される音声を、ステップS22で読みだされたデータ量を超えないように分割して分割音声データを生成する。以後の処理は、上記実施形態と同様に実行される
実施形態の変形例Aにおいて、分割管理テーブルの分割データ量として、一般的な一文の長さの音声データのデータ量よりも小さい値を設定しておくことで、上記実施形態と同様に、リアルタイム性の高い音声のテキスト変換を実現できる。実施形態の変形例Aによると、端末10は、無音の区間を含む音声から分割音声データを生成するときに、有音の音声から分割音声データを生成するときよりも、設定された分割データ量で長い時間の音声を記録できる。これにより、端末10は、無音の場合にも同じ時間ごとの分割音声データを生成して、音声変換サービス30への変換要求を繰り返すことを防ぐことができる。
<<本実施形態の主な効果>>
続いて、上記の実施形態の主な効果を説明する。上記実施形態の音声変換方法によると、端末10の音声入力部13(生成手段の一例)は、入力された音声から、音声データを生成する(生成処理の一例)。端末10の送受信部11(送信手段の一例)は、音声入力部13によって生成される音声データのうち、2秒(第1の長さの一例)の音声の音声データを、音声変換サービス30(音声変換システムの一例)へ送信する(送信処理の一例)。端末10の送受信部11(受信手段の一例)は、音声変換サービス30によって音声データから変換されたテキストデータ(変換データの一例)、及び変換の信頼度を示す情報を受信する(受信処理の一例)。端末10の送受信部11は、受信される信頼度に応じて、続いて、音声入力部13によって生成される音声データのうち、4秒の音声の音声データを、音声変換サービス30へ送信する。端末10によると、信頼度に応じて、音声変換サービス30へ送信する音声データの音声の長さを変更することで、信頼度を維持しつつ、変換の処理時間を低減させることが可能になる。
端末10の送受信部11は、受信された信頼度を示す情報が所定の閾値に満たない場合に、先に送信した2秒の音声と、この音声に続く2秒の音声と、を含む4秒(第2の長さの一例)の音声の音声データを、音声変換サービス30へ送信する。これにより、音声変換サービス30では、より多くの単語を含む音声データから音声認識を行うことができるので、変換の信頼性が向上する。
端末10の送受信部11は、所定の閾値α以上の信頼度を示す情報が受信された場合、又は、所定の閾値α未満の信頼度を示す情報が所定回数N受信された場合、2秒の音声を含む音声データの音声変換サービス30への送信を停止する。これにより、同じ音声の音声データが繰り返し変換されることで、処理時間が増えることを防ぐことができる。
端末10の音声入力部13は、入力された音声が2秒に分割された音声の分割音声データを生成する。端末10の送受信部11は、音声入力部13によって生成される分割音声データを1つ(第1の数の一例)含む2秒の長さの音声データを送信し、続いて、音声入力部13によって生成される分割音声データを2つ(第2の数の一例)含む4秒の音声データを送信する。これにより、端末10は、予め生成された分割音声データを音声変換サービス30へ送信できるので、処理時間を低減させることができる。
端末10の操作入力受付部12(受付手段の一例)は、言語の指定を受け付ける。端末10の音声入力部13は、入力された音声が、操作入力受付部12によって受け付けられた言語に対応する所定の長さに分割された音声の分割音声データを生成する。これにより、端末10は、言語ごとの変換の信頼性に応じて、音声を分割することができる。
端末10の送受信部11が、第1のデータ量の音声データ、又は第2のデータ量の音声データを音声変換サービス30へ送信する変形例の構成においても、上記実施形態と同様の効果が得られる。
<<実施形態の補足>>
端末10、及び音声変換サービス30用の各プログラムは、インストール可能な形式又は実行可能な形式のファイルによって、コンピュータで読み取り可能な記録媒体に記録されて流通されるようにしてもよい。また、上記記録媒体の他の例として、CD−R(Compact Disc Recordable)、DVD(Digital Versatile Disk)、ブルーレイディスク等が挙げられる。
また、上記実施形態の各プログラムが記憶されたCD−ROM等の記録媒体、並びに、これらプログラムが記憶されたHD504は、プログラム製品(Program Product)として、国内又は国外へ提供されることができる。
また、上記実施形態における端末10、及び音声変換サービス30は、単一のコンピュータによって構築されてもよいし、各部(機能又は手段)を分割して任意に割り当てられた複数のコンピュータによって構築されていてもよい。
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路を含むプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)や従来の回路モジュール等のデバイスを含むものとする。
1 通信システム
2 通信ネットワーク
10 端末
11 送受信部
12 操作入力受付部
13 音声入力部
14 音声処理部
15 表示制御部
19 記憶・読出部
30 音声変換サービス
31 送受信部
32 変換部
39 記憶・読出部
1000 記憶部
1001 分割管理DB
1002 音声管理部
3000 記憶部
特開2015−184564号公報

Claims (10)

  1. 入力された音声から、音声データを生成する生成手段と、
    前記生成手段によって生成される音声データのうち、第1の長さの音声の音声データを、音声変換システムへ送信する送信手段と、
    前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信手段と、を有し、
    前記送信手段は、前記受信手段によって受信される信頼度に応じて、前記生成手段によって生成される音声データのうち、前記第1の長さとは異なる第2の長さの音声の音声データを、前記音声変換システムへ送信する
    通信端末。
  2. 前記受信手段によって受信された前記信頼度を示す情報が所定の閾値に満たない場合に、前記送信手段は、前記第1の長さの音声を含み、前記第1の長さの音声よりも長い前記第2の長さの音声の音声データを、前記音声変換システムへ送信する
    請求項1に記載の通信端末。
  3. 前記受信手段によって前記所定の閾値以上の信頼度を示す情報が受信された場合、又は、前記受信手段によって前記所定の閾値未満の信頼度を示す情報が所定回数受信された場合、前記送信手段は、前記第1の長さの音声を含む音声データの前記音声変換システムへの送信を停止する
    請求項2に記載の通信端末。
  4. 前記生成手段は、入力された音声が所定の長さに分割された音声の音声データを生成し、
    前記送信手段は、前記生成手段によって生成される音声データを第1の数含む前記第1の長さの音声データを送信し、前記生成手段によって生成される音声データを第1の数とは異なる第2の数含む前記第2の長さの音声データを送信する
    請求項1乃至3のいずれか一項に記載の通信端末。
  5. 言語の指定を受け付ける受付手段を有し、
    前記生成手段は、入力された音声が、前記受付手段によって受け付けられた言語に対応する所定の長さに分割された音声の音声データを生成する
    請求項4に記載の通信端末。
  6. 入力された音声から、音声データを生成する生成手段と、
    前記生成手段によって生成される音声データのうち、第1のデータ量の音声データを、音声変換システムへ送信する送信手段と、
    前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信手段と、を有し、
    前記送信手段は、前記受信手段によって受信される信頼度に応じて、前記生成手段によって生成される音声データのうち、前記第1のデータ量とは異なる第2のデータ量の音声データを、前記音声変換システムへ送信する
    通信端末。
  7. 通信端末に、
    入力された音声から、音声データを生成する生成処理と、
    前記生成処理によって生成される音声データのうち、第1の長さの音声の音声データを、音声変換システムへ送信する送信処理と、
    前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
    前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第1の長さとは異なる第2の長さの音声の音声データを、前記音声変換システムへ送信する
    音声変換方法。
  8. 通信端末に、
    入力された音声から、音声データを生成する生成処理と、
    前記生成処理によって生成される音声データのうち、第1のデータ量の音声データを、音声変換システムへ送信する送信処理と、
    前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
    前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第1のデータ量とは異なる第2のデータ量の音声データを、前記音声変換システムへ送信する
    音声変換方法。
  9. 通信端末に、
    入力された音声から、音声データを生成する生成処理と、
    前記生成処理によって生成される音声データのうち、第1の長さの音声の音声データを、音声変換システムへ送信する送信処理と、
    前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
    前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第1の長さとは異なる第2の長さの音声の音声データを、前記音声変換システムへ送信させる
    プログラム。
  10. 通信端末に、
    入力された音声から、音声データを生成する生成処理と、
    前記生成処理によって生成される音声データのうち、第1のデータ量の音声データを、音声変換システムへ送信する送信処理と、
    前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
    前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第1のデータ量とは異なる第2のデータ量の音声データを、前記音声変換システムへ送信させる
    プログラム。
JP2016181923A 2016-09-16 2016-09-16 通信端末、音声変換方法、及びプログラム Active JP6756211B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016181923A JP6756211B2 (ja) 2016-09-16 2016-09-16 通信端末、音声変換方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016181923A JP6756211B2 (ja) 2016-09-16 2016-09-16 通信端末、音声変換方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2018045193A true JP2018045193A (ja) 2018-03-22
JP6756211B2 JP6756211B2 (ja) 2020-09-16

Family

ID=61694871

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016181923A Active JP6756211B2 (ja) 2016-09-16 2016-09-16 通信端末、音声変換方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP6756211B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11398237B2 (en) 2019-02-21 2022-07-26 Ricoh Company, Ltd. Communication terminal, sharing system, display control method, and non-transitory computer-readable medium
JP2022178110A (ja) * 2021-05-19 2022-12-02 Necプラットフォームズ株式会社 音声認識表示装置、音声認識表示方法及びプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003280678A (ja) * 2002-03-20 2003-10-02 Asahi Kasei Corp 音声認識装置
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP2010217628A (ja) * 2009-03-18 2010-09-30 Kddi Corp 音声によってテキストを入力する音声認識処理方法及びシステム
JP2013140269A (ja) * 2012-01-05 2013-07-18 Denso Corp 音声認識装置
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
JP2015184487A (ja) * 2014-03-24 2015-10-22 株式会社東芝 音声処理装置および音声処理方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003280678A (ja) * 2002-03-20 2003-10-02 Asahi Kasei Corp 音声認識装置
WO2009069662A1 (ja) * 2007-11-27 2009-06-04 Nec Corporation 音声検出システム、音声検出方法および音声検出プログラム
JP2010217628A (ja) * 2009-03-18 2010-09-30 Kddi Corp 音声によってテキストを入力する音声認識処理方法及びシステム
JP2013140269A (ja) * 2012-01-05 2013-07-18 Denso Corp 音声認識装置
WO2014129033A1 (ja) * 2013-02-25 2014-08-28 三菱電機株式会社 音声認識システムおよび音声認識装置
JP2015184487A (ja) * 2014-03-24 2015-10-22 株式会社東芝 音声処理装置および音声処理方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11398237B2 (en) 2019-02-21 2022-07-26 Ricoh Company, Ltd. Communication terminal, sharing system, display control method, and non-transitory computer-readable medium
JP2022178110A (ja) * 2021-05-19 2022-12-02 Necプラットフォームズ株式会社 音声認識表示装置、音声認識表示方法及びプログラム
JP7323210B2 (ja) 2021-05-19 2023-08-08 Necプラットフォームズ株式会社 音声認識表示装置、音声認識表示方法及びプログラム

Also Published As

Publication number Publication date
JP6756211B2 (ja) 2020-09-16

Similar Documents

Publication Publication Date Title
US9299342B2 (en) User query history expansion for improving language model adaptation
US10586528B2 (en) Domain-specific speech recognizers in a digital medium environment
US10755729B2 (en) Systems and methods for interrelating text transcript information with video and/or audio information
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
US11881209B2 (en) Electronic device and control method
KR102529262B1 (ko) 전자 장치 및 제어 방법
US20200403816A1 (en) Utilizing volume-based speaker attribution to associate meeting attendees with digital meeting content
US20210034662A1 (en) Systems and methods for managing voice queries using pronunciation information
JP2020507165A (ja) データ可視化のための情報処理方法及び装置
US20190043527A1 (en) Routing audio streams based on semantically generated result sets
JP7331044B2 (ja) 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム
JP6756211B2 (ja) 通信端末、音声変換方法、及びプログラム
US11646050B2 (en) Method and apparatus for extracting video clip
KR20060100646A (ko) 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템
JP7225380B2 (ja) 音声パケット記録機能のガイド方法、装置、デバイス、プログラム及びコンピュータ記憶媒体
KR102226427B1 (ko) 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법
JP7230803B2 (ja) 情報処理装置および情報処理方法
KR20180089242A (ko) 챗봇에서의 출력 유형에 따라 대화 내용을 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
JP7166370B2 (ja) 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体
US11935539B1 (en) Integrating voice controls into applications
US11955120B1 (en) Systems and methods for integrating voice controls into applications
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7183316B2 (ja) 音声記録検索方法、コンピュータ装置およびコンピュータプログラム
WO2022224584A1 (ja) 情報処理装置、情報処理方法、端末装置及び表示方法
JP2008017050A (ja) 会議システム及び会議方法

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20180209

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200317

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200728

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200810

R151 Written notification of patent or utility model registration

Ref document number: 6756211

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151