JP2022070016A - 音声処理装置、音声処理方法、およびプログラム - Google Patents
音声処理装置、音声処理方法、およびプログラム Download PDFInfo
- Publication number
- JP2022070016A JP2022070016A JP2020179017A JP2020179017A JP2022070016A JP 2022070016 A JP2022070016 A JP 2022070016A JP 2020179017 A JP2020179017 A JP 2020179017A JP 2020179017 A JP2020179017 A JP 2020179017A JP 2022070016 A JP2022070016 A JP 2022070016A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- data
- language
- voice data
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
Description
図1から図2までを参照して、実施形態1について説明する。
図1は、本実施形態1に係わる音声処理装置10の構成を示すブロック図である。図1に示すように、音声処理装置10は、識別部11および認識部12を備えている。
図2を参照して、本実施形態2に係わる音声処理装置10の動作を説明する。図2は、音声処理装置10の各部が実行する処理の流れを示すフローチャートである。
本実施形態の構成によれば、識別部11は、入力された音声データの言語を識別する。認識部12は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。入力される音声データの言語が予め特定されていない場合がある。より詳細には、話者が複数の言語を使って、音声データを入力する場合がある。このような場合、音声処理装置10は、音声データの言語を識別した後、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。このため、複数の言語で入力されうる音声データを正確に音声認識することができる。
図3から図4までを参照して、実施形態2について説明する。
図3は、本実施形態2に係わる音声処理装置20の構成を示すブロック図である。図3に示すように、音声処理装置20は、識別部11および認識部12に加えて、制御部23をさらに備えている。本実施形態2では、前記実施形態1の説明を引用して、識別部11および認識部12についての説明を省略する。
図4を参照して、本実施形態2に係わる音声処理装置20の動作を説明する。図4は、音声処理装置20の各部が実行する処理の流れを示すフローチャートである。
本実施形態の構成によれば、識別部11は、入力された音声データの言語を識別する。認識部12は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。入力される音声データの言語が予め特定されていない場合がある。より詳細には、話者が複数の言語を使って、音声データを入力する場合がある。このような場合、音声処理装置20は、音声データの言語を識別した後、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。このため、複数の言語で入力されうる音声データを正確に音声認識することができる。
図5から図6までを参照して、実施形態3について説明する。
図5は、本実施形態3に係わるシステム1の構成を概略的に示す図である。図5に示すように、システム1は、音声処理装置20、端末200、及びサーバ300を備えている。
図6を参照して、本実施形態3に係わるシステム1の動作を説明する。図6は、システム1の各部が実行する工程を示すシーケンス図である。
一変形例では、システム1は、本実施形態2に係わる音声処理装置20に代えて、前記実施形態1に係わる音声処理装置10(図1)を備えていてもよい。本変形例では、音声処理装置10の識別部11は、端末200から、音声データを受信して、受信した音声データを識別する。例えば、制御部23は、識別部11による音声データの識別結果として、音声データの言語を示す情報(例えば、「英語」または「日本語」)を、端末200の画面に表示する。
本実施形態の構成によれば、端末200は、音声データを入力する。音声処理装置20(あるいは10)は、複数の言語で入力されうる音声データを正確に音声認識する。サーバ300は、音声データから変換された文字列データを記憶する。これにより、音声により指示を入力するユーザを補助したり、ユーザが指示を顧みることができるようにしたりすることができる。
前記実施形態1~2で説明した音声処理装置10、20の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図7に示すような情報処理装置900により実現される。図7は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
前記実施形態1~2で説明した音声処理装置10、20の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
本発明の一態様は以下の例のように記載されうるが、以下の例に限られない。
入力された音声データの言語を識別する識別手段と、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する認識手段とを備えた
音声処理装置。
識別した前記言語と対応する言語解析エンジンによる前記文字列データの解析結果に基づいて、外部機器または外部システムを制御する制御手段をさらに備えた
ことを特徴とする付記1に記載の音声処理装置。
前記制御手段は、前記文字列データの解析結果が示す前記音声データの意味が、指示の入力に関する基準に反する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする付記2に記載の音声処理装置。
前記制御手段は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする付記2に記載の音声処理装置。
前記識別手段は、入力された前記音声データに含まれる1または複数の単語を認識し、認識された前記1または複数の単語が属する言語を判定することによって、前記音声データの言語を識別する
ことを特徴とする付記1から4のいずれか1項に記載の音声処理装置。
前記認識手段は、識別された前記音声データの言語が変化したことを契機として、前記音声データを認識するために使用する音声認識エンジンを切り替える
ことを特徴とする付記1から5のいずれか1項に記載の音声処理装置。
前記識別手段は、入力された前記音声データの言語が英語及び日本語のどちらであるかを識別する
ことを特徴とする付記1から6のいずれか1項に記載の音声処理装置。
入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
音声処理方法。
入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
ことをコンピュータに実行させるためのプログラム。
付記1から7のいずれか1項に記載の音声処理装置と、
前記音声データを入力する音声入力装置と、
前記音声データから変換された前記文字列データを記憶する外部記憶装置と
を備えたシステム。
前記外部記憶装置は、前記音声入力装置から取得した前記音声データと、前記音声データから変換された前記文字列データとを紐づけて記憶する
ことを特徴とする付記10に記載のシステム。
10 音声処理装置
11 識別部
12 認識部
20 音声処理装置
23 制御部
200 端末(音声入力装置)
300 サーバ(外部記憶装置)
Claims (10)
- 入力された音声データの言語を識別する識別手段と、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する認識手段とを備えた
音声処理装置。 - 識別した前記言語と対応する言語解析エンジンによる前記文字列データの解析結果に基づいて、外部機器または外部システムを制御する制御手段をさらに備えた
ことを特徴とする請求項1に記載の音声処理装置。 - 前記制御手段は、前記文字列データの解析結果が示す前記音声データの意味が、指示の入力に関する基準に反する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする請求項2に記載の音声処理装置。 - 前記制御手段は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする請求項2に記載の音声処理装置。 - 前記識別手段は、入力された前記音声データに含まれる1または複数の単語を認識し、認識された前記1または複数の単語が属する言語を判定することによって、前記音声データの言語を識別する
ことを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。 - 前記認識手段は、識別された前記音声データの言語が変化したことを契機として、前記音声データを認識するために使用する音声認識エンジンを切り替える
ことを特徴とする請求項1から5のいずれか1項に記載の音声処理装置。 - 前記識別手段は、入力された前記音声データの言語が英語及び日本語のどちらであるかを識別する
ことを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。 - 入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
音声処理方法。 - 入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
ことをコンピュータに実行させるためのプログラム。 - 請求項1から7のいずれか1項に記載の音声処理装置と、
前記音声データを前記音声処理装置に入力する音声入力装置と、
前記音声データから変換された前記文字列データを記憶する外部記憶装置と
を備えたシステム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020179017A JP7160077B2 (ja) | 2020-10-26 | 2020-10-26 | 音声処理装置、音声処理方法、システム、およびプログラム |
US17/498,963 US20220130373A1 (en) | 2020-10-26 | 2021-10-12 | Voice processing device, voice processing method, system, and recording medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020179017A JP7160077B2 (ja) | 2020-10-26 | 2020-10-26 | 音声処理装置、音声処理方法、システム、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022070016A true JP2022070016A (ja) | 2022-05-12 |
JP7160077B2 JP7160077B2 (ja) | 2022-10-25 |
Family
ID=81257519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020179017A Active JP7160077B2 (ja) | 2020-10-26 | 2020-10-26 | 音声処理装置、音声処理方法、システム、およびプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220130373A1 (ja) |
JP (1) | JP7160077B2 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009300573A (ja) * | 2008-06-11 | 2009-12-24 | Nippon Syst Wear Kk | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
JP2018141742A (ja) * | 2017-02-28 | 2018-09-13 | パイオニア株式会社 | ナビゲーション装置、ナビゲーション方法、及びナビゲーション用プログラム |
WO2019111346A1 (ja) * | 2017-12-06 | 2019-06-13 | ソースネクスト株式会社 | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム |
WO2020012813A1 (ja) * | 2018-07-09 | 2020-01-16 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020056972A (ja) * | 2018-10-04 | 2020-04-09 | 富士通株式会社 | 言語識別プログラム、言語識別方法及び言語識別装置 |
US11514893B2 (en) * | 2020-01-29 | 2022-11-29 | Microsoft Technology Licensing, Llc | Voice context-aware content manipulation |
-
2020
- 2020-10-26 JP JP2020179017A patent/JP7160077B2/ja active Active
-
2021
- 2021-10-12 US US17/498,963 patent/US20220130373A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009300573A (ja) * | 2008-06-11 | 2009-12-24 | Nippon Syst Wear Kk | 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム |
JP2018141742A (ja) * | 2017-02-28 | 2018-09-13 | パイオニア株式会社 | ナビゲーション装置、ナビゲーション方法、及びナビゲーション用プログラム |
WO2019111346A1 (ja) * | 2017-12-06 | 2019-06-13 | ソースネクスト株式会社 | 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム |
WO2020012813A1 (ja) * | 2018-07-09 | 2020-01-16 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP7160077B2 (ja) | 2022-10-25 |
US20220130373A1 (en) | 2022-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10431203B2 (en) | Machine training for native language and fluency identification | |
EP3144930A1 (en) | Apparatus and method for speech recognition, and apparatus and method for training transformation parameter | |
US11538478B2 (en) | Multiple virtual assistants | |
WO2018047436A1 (ja) | 翻訳装置及び翻訳方法 | |
JP2017058673A (ja) | 対話処理装置及び方法と知能型対話処理システム | |
US11222622B2 (en) | Wake word selection assistance architectures and methods | |
CN113505591A (zh) | 一种槽位识别方法及电子设备 | |
US20200058290A1 (en) | Artificial intelligence apparatus for correcting synthesized speech and method thereof | |
CN112818680B (zh) | 语料的处理方法、装置、电子设备及计算机可读存储介质 | |
US11183170B2 (en) | Interaction control apparatus and method | |
JP2021022928A (ja) | 人工知能基盤の自動応答方法およびシステム | |
KR20190109651A (ko) | 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템 | |
JP2022070016A (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP2010054897A (ja) | 音声認識装置、音声認識プログラム、受付装置および受付プログラム | |
KR20220070466A (ko) | 지능적 음성 인식 방법 및 장치 | |
KR20210051523A (ko) | 도메인 자동 분류 대화 시스템 | |
US10304460B2 (en) | Conference support system, conference support method, and computer program product | |
Rataj et al. | AcListant with Continuous Learning: Speech Recognition in Air Traffic Control | |
KR102319013B1 (ko) | 대화문 발화 성격 인식 방법 및 시스템 | |
CN109887490A (zh) | 用于识别语音的方法和装置 | |
US11763809B1 (en) | Access to multiple virtual assistants | |
CN113593523A (zh) | 基于人工智能的语音检测方法、装置及电子设备 | |
US20240112682A1 (en) | Speaker identification method, speaker identification device, and non-transitory computer readable recording medium | |
JP2020201322A (ja) | 案内ロボットシステム及び会話作成方法 | |
US11922938B1 (en) | Access to multiple virtual assistants |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201026 |
|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20211020 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220419 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220617 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220913 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220926 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7160077 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |