JP2018045193A - 通信端末、音声変換方法、及びプログラム - Google Patents
通信端末、音声変換方法、及びプログラム Download PDFInfo
- Publication number
- JP2018045193A JP2018045193A JP2016181923A JP2016181923A JP2018045193A JP 2018045193 A JP2018045193 A JP 2018045193A JP 2016181923 A JP2016181923 A JP 2016181923A JP 2016181923 A JP2016181923 A JP 2016181923A JP 2018045193 A JP2018045193 A JP 2018045193A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- conversion
- audio
- reliability
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
Description
図1は、本発明の一実施形態に係る通信システムの概略図である。図1に示されているように、通信システム1は、通信端末10、及び音声変換サービス30によって構築されている。以下、通信端末10を単に端末10と表す。端末10、及び音声変換サービス30は、通信ネットワーク2を介して接続されている。通信ネットワーク2の一部、又は全部は、例えば、インターネット、LAN(Local Area Network)、又は専用線によって構築されていても良い。また、通信ネットワーク2の一部、又は全部は、有線の通信網によって構築されていても、無線の通信網によって構築されていても良い。
次に、通信システム1を構成する各装置のハードウェア構成を説明する。
まず、図2を用いて、一実施形態に係る端末のハードウェア構成を説明する。なお、図2は、一実施形態に係る端末のハードウェア構成図である。
次に、本実施形態の機能構成について説明する。図4は、一実施形態に係る通信システム1を構成する端末10、及び音声変換サービス30の機能ブロック図である。図4では、端末10、及び音声変換サービス30が、通信ネットワーク2を介してデータ通信することができるように接続されている。
端末10は、送受信部11、操作入力受付部12、音声入力部13、音声処理部14、表示制御部15、及び記憶・読出部19を有している。これら各部は、図2に示されている各構成要素のいずれかが、ROM202からRAM203上に展開されたプログラムに従ったCPU201からの命令によって動作することで実現される機能である。また、端末10は、図2に示されているROM202、RAM203、SSD204によって構築される記憶部1000を有している。
図5の(A)は、分割管理テーブルを示す概念図である。記憶部1000には、分割管理テーブルによって分割管理DB1001が構築される。分割管理テーブルでは、言語を示す情報に関連付けて、その言語の音声から音声データを生成するときに、音声を何秒ごとに分割するかを示す分割時間を示す情報が管理されている。例えば、図5(A)の分割管理テーブルによると、英語の音声から音声データを生成するときに、2秒ごとの音声の音声データを生成することを示す。なお、分割した音声から生成される音声データを、以下、分割音声データと表す。
図5の(B)は、音声管理部を示す概念図である。記憶部1000には、音声管理部1002が構築される。音声管理部1002の所定の記憶領域には、分割音声データがネクストポインタに関連付けられて管理されている。なお、図5の(B)には、説明のため、分割音声データのフィールドにはテキストが記録されているが、実際はテキストに対応する音声のデータが記録されている。ネクストポインタは、次に記録される分割音声データが格納される記憶領域を示す。なお、本実施形態では、音声は入力順に分割されて、記憶領域の"S1, S2, S3,…"で示される場所へ順に記録される。これにより、図5の(B)の音声管理部において、先に入力された音声に対応する音声データに対し、後に入力される音声データよりも小さい数値を含むネクストポインタが割り当てられている。
次に、図2及び図4を用いて、端末10の各機能構成について詳細に説明する。なお、以下では、端末10の各機能構成を説明するにあたって、図2に示されている各構成要素のうち、端末10の各機能構成を実現させるための主な構成要素との関係も説明する。
音声変換サービス30は、送受信部31、変換部32、及び記憶・読出部39を有している。これら各部は、図3に示されている各構成要素のいずれかが、HD504からRAM503上に展開された音声変換サービス30用のプログラムに従ったCPU501からの命令によって動作することで実現される機能である。また、音声変換サービス30は、HD504により構築される記憶部5000を有している。
次に、音声変換サービス30の各機能構成について詳細に説明する。なお、以下では、音声変換サービス30の各機能構成を説明するにあたって、図3に示されている各構成要素のうち、音声変換サービス30の各機能構成を実現させるための主な構成要素との関係も説明する。
続いて、端末10、及び音声変換サービス30の処理について説明する。まずは、端末10を用いた会議における準備段階の処理について説明する。図6の(A)は、端末10を用いた会議における準備段階の処理の一例を示すシーケンス図である。なお、会議は、音声を用いた任意のコミュニケーションに置き換え可能である。
*head = *S1
分割音声データS1{
data:分割音声データD1
*next : *S2
}
分割音声データS2{
data:分割音声データD2
*next : null
}
の形式で分割音声データをバッファリングすることができる。この例のリスト構造は、最初のデータを指すネクストポインタ"head"を持つ。最初の分割音声データが、例えば、記憶領域"S1"にあるとき、"head"は"S1"となる。ネクストポインタは次のデータが格納される記憶領域の場所を指し示す。この例で、記憶領域"S1"に格納される最初の音声の分割音声データが持つネクストポインタは"S2"となり、記憶領域S2に格納される最後の分割音声データが持つネクストポインタは"NULL"となる。上記の例文の音声を記憶させる場合、音声入力部13は、例えば、ネクストポインタ"head"として"S1"を音声管理部1002に記録し、音声"Because one can"の分割音声データを、ネクストポインタ"S2"に関連付けて音声管理部1002の記憶領域"S1"に記録し、続いて、音声"never come to understand the"の分割音声データをネクストポインタ"S3"に関連付けて音声管理部1002の記憶領域S2に順に記録する。なお、図5の(B)は、リスト構造のうち分割音声データ、及びネクストポイントを抽出して、概念的に表したものである。このように、ネクストポインタを用いたリスト構造により分割音声データをバッファリングすることで、各分割音声データについて、次に入力された音声により生成された分割音声データを端末10において特定可能になる。
続いて、実施形態の変形例Aについて上記実施形態と異なる点を説明する。表1は、実施形態の変形例Aにおける分割管理テーブルの一例を示す。変形例Aの分割管理テーブルでは、言語を示す情報に関連付けて、音声を分割して音声データを生成するときの各音声データのデータ量を示す分割データ量が管理されている。
続いて、上記の実施形態の主な効果を説明する。上記実施形態の音声変換方法によると、端末10の音声入力部13(生成手段の一例)は、入力された音声から、音声データを生成する(生成処理の一例)。端末10の送受信部11(送信手段の一例)は、音声入力部13によって生成される音声データのうち、2秒(第1の長さの一例)の音声の音声データを、音声変換サービス30(音声変換システムの一例)へ送信する(送信処理の一例)。端末10の送受信部11(受信手段の一例)は、音声変換サービス30によって音声データから変換されたテキストデータ(変換データの一例)、及び変換の信頼度を示す情報を受信する(受信処理の一例)。端末10の送受信部11は、受信される信頼度に応じて、続いて、音声入力部13によって生成される音声データのうち、4秒の音声の音声データを、音声変換サービス30へ送信する。端末10によると、信頼度に応じて、音声変換サービス30へ送信する音声データの音声の長さを変更することで、信頼度を維持しつつ、変換の処理時間を低減させることが可能になる。
端末10、及び音声変換サービス30用の各プログラムは、インストール可能な形式又は実行可能な形式のファイルによって、コンピュータで読み取り可能な記録媒体に記録されて流通されるようにしてもよい。また、上記記録媒体の他の例として、CD−R(Compact Disc Recordable)、DVD(Digital Versatile Disk)、ブルーレイディスク等が挙げられる。
2 通信ネットワーク
10 端末
11 送受信部
12 操作入力受付部
13 音声入力部
14 音声処理部
15 表示制御部
19 記憶・読出部
30 音声変換サービス
31 送受信部
32 変換部
39 記憶・読出部
1000 記憶部
1001 分割管理DB
1002 音声管理部
3000 記憶部
Claims (10)
- 入力された音声から、音声データを生成する生成手段と、
前記生成手段によって生成される音声データのうち、第1の長さの音声の音声データを、音声変換システムへ送信する送信手段と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信手段と、を有し、
前記送信手段は、前記受信手段によって受信される信頼度に応じて、前記生成手段によって生成される音声データのうち、前記第1の長さとは異なる第2の長さの音声の音声データを、前記音声変換システムへ送信する
通信端末。 - 前記受信手段によって受信された前記信頼度を示す情報が所定の閾値に満たない場合に、前記送信手段は、前記第1の長さの音声を含み、前記第1の長さの音声よりも長い前記第2の長さの音声の音声データを、前記音声変換システムへ送信する
請求項1に記載の通信端末。 - 前記受信手段によって前記所定の閾値以上の信頼度を示す情報が受信された場合、又は、前記受信手段によって前記所定の閾値未満の信頼度を示す情報が所定回数受信された場合、前記送信手段は、前記第1の長さの音声を含む音声データの前記音声変換システムへの送信を停止する
請求項2に記載の通信端末。 - 前記生成手段は、入力された音声が所定の長さに分割された音声の音声データを生成し、
前記送信手段は、前記生成手段によって生成される音声データを第1の数含む前記第1の長さの音声データを送信し、前記生成手段によって生成される音声データを第1の数とは異なる第2の数含む前記第2の長さの音声データを送信する
請求項1乃至3のいずれか一項に記載の通信端末。 - 言語の指定を受け付ける受付手段を有し、
前記生成手段は、入力された音声が、前記受付手段によって受け付けられた言語に対応する所定の長さに分割された音声の音声データを生成する
請求項4に記載の通信端末。 - 入力された音声から、音声データを生成する生成手段と、
前記生成手段によって生成される音声データのうち、第1のデータ量の音声データを、音声変換システムへ送信する送信手段と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信手段と、を有し、
前記送信手段は、前記受信手段によって受信される信頼度に応じて、前記生成手段によって生成される音声データのうち、前記第1のデータ量とは異なる第2のデータ量の音声データを、前記音声変換システムへ送信する
通信端末。 - 通信端末に、
入力された音声から、音声データを生成する生成処理と、
前記生成処理によって生成される音声データのうち、第1の長さの音声の音声データを、音声変換システムへ送信する送信処理と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第1の長さとは異なる第2の長さの音声の音声データを、前記音声変換システムへ送信する
音声変換方法。 - 通信端末に、
入力された音声から、音声データを生成する生成処理と、
前記生成処理によって生成される音声データのうち、第1のデータ量の音声データを、音声変換システムへ送信する送信処理と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第1のデータ量とは異なる第2のデータ量の音声データを、前記音声変換システムへ送信する
音声変換方法。 - 通信端末に、
入力された音声から、音声データを生成する生成処理と、
前記生成処理によって生成される音声データのうち、第1の長さの音声の音声データを、音声変換システムへ送信する送信処理と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第1の長さとは異なる第2の長さの音声の音声データを、前記音声変換システムへ送信させる
プログラム。 - 通信端末に、
入力された音声から、音声データを生成する生成処理と、
前記生成処理によって生成される音声データのうち、第1のデータ量の音声データを、音声変換システムへ送信する送信処理と、
前記音声変換システムによって前記音声データから変換された変換データ、及び変換の信頼度を示す情報を受信する受信処理と、を実行させ、
前記受信処理によって受信される信頼度に応じて、続く送信処理で、前記生成処理によって生成される音声データのうち、前記第1のデータ量とは異なる第2のデータ量の音声データを、前記音声変換システムへ送信させる
プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181923A JP6756211B2 (ja) | 2016-09-16 | 2016-09-16 | 通信端末、音声変換方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016181923A JP6756211B2 (ja) | 2016-09-16 | 2016-09-16 | 通信端末、音声変換方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018045193A true JP2018045193A (ja) | 2018-03-22 |
JP6756211B2 JP6756211B2 (ja) | 2020-09-16 |
Family
ID=61694871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016181923A Active JP6756211B2 (ja) | 2016-09-16 | 2016-09-16 | 通信端末、音声変換方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6756211B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11398237B2 (en) | 2019-02-21 | 2022-07-26 | Ricoh Company, Ltd. | Communication terminal, sharing system, display control method, and non-transitory computer-readable medium |
JP2022178110A (ja) * | 2021-05-19 | 2022-12-02 | Necプラットフォームズ株式会社 | 音声認識表示装置、音声認識表示方法及びプログラム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003280678A (ja) * | 2002-03-20 | 2003-10-02 | Asahi Kasei Corp | 音声認識装置 |
WO2009069662A1 (ja) * | 2007-11-27 | 2009-06-04 | Nec Corporation | 音声検出システム、音声検出方法および音声検出プログラム |
JP2010217628A (ja) * | 2009-03-18 | 2010-09-30 | Kddi Corp | 音声によってテキストを入力する音声認識処理方法及びシステム |
JP2013140269A (ja) * | 2012-01-05 | 2013-07-18 | Denso Corp | 音声認識装置 |
WO2014129033A1 (ja) * | 2013-02-25 | 2014-08-28 | 三菱電機株式会社 | 音声認識システムおよび音声認識装置 |
JP2015184487A (ja) * | 2014-03-24 | 2015-10-22 | 株式会社東芝 | 音声処理装置および音声処理方法 |
-
2016
- 2016-09-16 JP JP2016181923A patent/JP6756211B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003280678A (ja) * | 2002-03-20 | 2003-10-02 | Asahi Kasei Corp | 音声認識装置 |
WO2009069662A1 (ja) * | 2007-11-27 | 2009-06-04 | Nec Corporation | 音声検出システム、音声検出方法および音声検出プログラム |
JP2010217628A (ja) * | 2009-03-18 | 2010-09-30 | Kddi Corp | 音声によってテキストを入力する音声認識処理方法及びシステム |
JP2013140269A (ja) * | 2012-01-05 | 2013-07-18 | Denso Corp | 音声認識装置 |
WO2014129033A1 (ja) * | 2013-02-25 | 2014-08-28 | 三菱電機株式会社 | 音声認識システムおよび音声認識装置 |
JP2015184487A (ja) * | 2014-03-24 | 2015-10-22 | 株式会社東芝 | 音声処理装置および音声処理方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11398237B2 (en) | 2019-02-21 | 2022-07-26 | Ricoh Company, Ltd. | Communication terminal, sharing system, display control method, and non-transitory computer-readable medium |
JP2022178110A (ja) * | 2021-05-19 | 2022-12-02 | Necプラットフォームズ株式会社 | 音声認識表示装置、音声認識表示方法及びプログラム |
JP7323210B2 (ja) | 2021-05-19 | 2023-08-08 | Necプラットフォームズ株式会社 | 音声認識表示装置、音声認識表示方法及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP6756211B2 (ja) | 2020-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9299342B2 (en) | User query history expansion for improving language model adaptation | |
US10586528B2 (en) | Domain-specific speech recognizers in a digital medium environment | |
US10755729B2 (en) | Systems and methods for interrelating text transcript information with video and/or audio information | |
US11501764B2 (en) | Apparatus for media entity pronunciation using deep learning | |
US11881209B2 (en) | Electronic device and control method | |
KR102529262B1 (ko) | 전자 장치 및 제어 방법 | |
US20200403816A1 (en) | Utilizing volume-based speaker attribution to associate meeting attendees with digital meeting content | |
US20210034662A1 (en) | Systems and methods for managing voice queries using pronunciation information | |
JP2020507165A (ja) | データ可視化のための情報処理方法及び装置 | |
US20190043527A1 (en) | Routing audio streams based on semantically generated result sets | |
JP7331044B2 (ja) | 情報処理方法、装置、システム、電子機器、記憶媒体およびコンピュータプログラム | |
JP6756211B2 (ja) | 通信端末、音声変換方法、及びプログラム | |
US11646050B2 (en) | Method and apparatus for extracting video clip | |
KR20060100646A (ko) | 영상물의 특정 위치를 검색하는 방법 및 영상 검색 시스템 | |
JP7225380B2 (ja) | 音声パケット記録機能のガイド方法、装置、デバイス、プログラム及びコンピュータ記憶媒体 | |
KR102226427B1 (ko) | 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법 | |
JP7230803B2 (ja) | 情報処理装置および情報処理方法 | |
KR20180089242A (ko) | 챗봇에서의 출력 유형에 따라 대화 내용을 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체 | |
JP7166370B2 (ja) | 音声記録のための音声認識率を向上させる方法、システム、およびコンピュータ読み取り可能な記録媒体 | |
US11935539B1 (en) | Integrating voice controls into applications | |
US11955120B1 (en) | Systems and methods for integrating voice controls into applications | |
JP7230085B2 (ja) | 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
JP7183316B2 (ja) | 音声記録検索方法、コンピュータ装置およびコンピュータプログラム | |
WO2022224584A1 (ja) | 情報処理装置、情報処理方法、端末装置及び表示方法 | |
JP2008017050A (ja) | 会議システム及び会議方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20180209 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200317 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200511 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200728 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200810 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6756211 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |