JP2022070016A - 音声処理装置、音声処理方法、およびプログラム - Google Patents

音声処理装置、音声処理方法、およびプログラム Download PDF

Info

Publication number
JP2022070016A
JP2022070016A JP2020179017A JP2020179017A JP2022070016A JP 2022070016 A JP2022070016 A JP 2022070016A JP 2020179017 A JP2020179017 A JP 2020179017A JP 2020179017 A JP2020179017 A JP 2020179017A JP 2022070016 A JP2022070016 A JP 2022070016A
Authority
JP
Japan
Prior art keywords
voice
data
language
voice data
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020179017A
Other languages
English (en)
Other versions
JP7160077B2 (ja
Inventor
卓 中田
Taku Nakada
優香 圓城寺
Yuka Enjoji
恵里加 越野
Erika Koshino
崇 山下
Takashi Yamashita
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2020179017A priority Critical patent/JP7160077B2/ja
Priority to US17/498,963 priority patent/US20220130373A1/en
Publication of JP2022070016A publication Critical patent/JP2022070016A/ja
Application granted granted Critical
Publication of JP7160077B2 publication Critical patent/JP7160077B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

【課題】複数の言語で入力されうる音声データを正確に音声認識できる音声処理装置、音声処理方法及びプログラムを提供する。【解決手段】音声処理装置10において、識別部11は、入力された前記音声データに含まれる1又は複数の単語を認識し、認識された1又は複数の単語が属する言語を判定することによって、入力された音声データの言語を識別する。認識部12は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。【選択図】図1

Description

本発明は、音声処理装置、音声処理方法、およびプログラムに関し、特に、入力された音声データを文字列データに変換する音声処理装置、音声処理方法、およびプログラムに関する。
人々の移動および物流の手段として、航空機の需要が増大している。航空インフラは社会に不可欠である。航空管制システムは、航空機が安全かつ効率的な運航を行うために、航空管制官(以下、単に管制官と呼ぶ)に対して、さまざまな航空情報を提供する。
平常、複数の航空機が空港を離着陸している。管制官は、状況を瞬時に判断し、各航空機のパイロットに対し、的確な指示を出す必要がある。特許文献1は、管制官が航空管制をより早くかつ適切に行えるように、複数の管制官の間で、情報を共有させる航空管制支援装置を開示している。
管制官が、パイロットに対して、何をどのように指示したのかを第三者が確認できる必要がある。特許文献2は、航空管制の専門用語を認識できるように学習した音声認識エンジンを使用して、音声入力装置によって、管制官の音声から音声データを生成し、さらに音声データを文字列データに変換して、保存するシステムを開示している。特許文献3は、英語ネイティブの音声データ、および、非ネイティブの音声データを用いて学習した音声認識エンジンによって、英語の音声認識の精度を向上させる技術が開示されている。
特開2006-172214号公報 特表2019-535034号公報 特開2011-227129号公報
管制官は、英語と母国語(日本語)とを織り交ぜて話す場合がある。例えば、管制官が、母国の航空会社のパイロットと会話する場合である。このような場合、特許文献2および特許文献3に記載の関連する技術では、音声認識エンジンが機能せず、入力された音声データの一部を文字列データに変換することに失敗する可能性がある。
本発明は、上記の課題を解決するためになされたものであり、その目的は、複数の言語で入力されうる音声データを正確に音声認識することにある。
本発明の一態様に係わる音声処理装置は、入力された音声データの言語を識別する識別手段と、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する認識手段とを備えている。
本発明の一態様に係わる音声処理方法は、入力された音声データの言語を識別し、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する。
本発明の一態様に係わるプログラムは、入力された音声データの言語を識別し、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換することをコンピュータに実行させる。
本発明の一態様によれば、複数の言語で入力されうる音声データを正確に音声認識することができる。
実施形態1に係わる音声処理装置の構成を示すブロック図である。 実施形態1に係わる音声処理装置の動作を示すフローチャートである。 実施形態2に係わる音声処理装置の構成を示すブロック図である。 実施形態2に係わる音声処理装置の動作を示すフローチャートである。 実施形態3に係わるシステムの構成を概略的に示す図である。 実施形態3に係わるシステムの各部の動作を示すシーケンス図である。 実施形態1または2に係わる音声処理装置のハードウェア構成を示す図である。
本発明を実施するためのいくつかの実施形態の具体例を、以下で説明する。
〔実施形態1〕
図1から図2までを参照して、実施形態1について説明する。
(音声処理装置10の構成)
図1は、本実施形態1に係わる音声処理装置10の構成を示すブロック図である。図1に示すように、音声処理装置10は、識別部11および認識部12を備えている。
識別部11は、入力された音声データの言語を識別する。例えば、識別部11は、入力された音声データの言語が英語及び日本語のどちらであるかを識別する。識別部11は、識別手段の一例である。
一例では、識別部11は、マイクロフォンなどの音声入力装置に入力された時系列の音声データを取得する。識別部11は、所定の時間ごとに、時系列の音声データに含まれる1または複数の単語を認識し、認識された1または複数の単語が属する言語を判定することによって、音声データの言語を識別する。識別部11が、入力された音声データに含まれる1または複数の単語を認識する手法は、特に限定されない。一例では、識別部11は、後述する認識部12が入力された音声データを文字列データに変換するために用いる手法と同じ手法を用いてもよい。
一例では、識別部11は、入力された音声データのうち、識別した1または複数の単語から始まる所定の時間幅の音声データを、認識部12に出力する。加えて、識別部11は、入力された音声データの言語の識別結果として、識別された言語を示す情報を認識部12に出力する。なお、所定の時間幅は、識別部11が音声データの言語を識別する頻度(すなわち上述の所定の時間)と対応する。
認識部12は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別部11によって識別された言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。認識部12は、認識手段の一例である。
一例では、認識部12は、入力された音声データから、音素の特徴を抽出する。具体的に、認識部12は入力された音声データを、所定の時間長をもつフレーム単位毎の特徴ベクトルの時系列に変換(例えば;fast Fourier transform, FFT)する。このフレーム単位の特徴ベクトルを、音素の特徴と呼ぶ。1フレームの時間は、例えば、10msから100ms程度である。
また、認識部12は、識別部11から、入力された音声データの言語の識別結果として、識別された言語を示す情報を受信する。認識部12は、識別された言語を示す情報を用いて、識別された言語の音響モデルを参照する。
認識部12は、予め準備した学習用データに基づいて生成された音響モデルを用いる。音響モデルは、特定の言語に含まれる音素がそれぞれどのような周波数特性を持っているかを表したものである。音響モデルは、例えば、隠れマルコフモデルである。
例えば、音響モデルは、音声処理装置10の図示しないプロセッサにより読み出されるメモリに格納されている。メモリには、音響モデルとして、すべての音素の特徴(すべて音素のフレーム単位の特徴ベクトル)が格納される。このような構成において、認識部12は、入力された音声データから抽出された音素の特徴と、音響モデルとしてメモリに蓄積された各音素の特徴とを比較する。
そして、認識部12は、入力された音声データから抽出された音素の特徴と最も類似する音素を検出し、その音素に対応する文字データを、入力された音声データから抽出された音素の認識結果として出力する。一例では、認識部12は、音声データを認識することで得られた音素の文字列データを、図示しない記憶装置に保存する。あるいは、認識部12は、得られた文字列データを、図示しない表示デバイスの画面に表示してもよい。
上述のように、一例では、識別部11は、所定の時間ごとに、時系列の音声データの言語を識別する。ところが、時系列の音声データの言語が時間変化する場合がある。この場合、識別部11によって識別される音声データの言語も変化することになる。認識部12は、識別部11によって識別される音声データの言語が変化したことを契機(トリガー)として、音声データを認識するために使用する音声認識エンジンを切り替える。
(音声処理装置10の動作)
図2を参照して、本実施形態2に係わる音声処理装置10の動作を説明する。図2は、音声処理装置10の各部が実行する処理の流れを示すフローチャートである。
図2に示すように、識別部11は、入力された音声データの言語を識別する(S1)。識別部11は、入力された音声データの言語の識別結果として、識別された言語を示す情報を認識部12に出力する。
次に、認識部12は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別部11によって識別された言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する(S2)。認識部12は、入力された音声データの認識結果として、音声データから変換された文字列データを出力する。例えば、認識部12は、ユーザが使用する端末(図示せず)の画面に、音声データから変換された文字列データを表示する。
なお、ステップS1からS2までの処理が繰り返される場合において、識別部11によって識別される音声データの言語が変化した場合、認識部12は、それに対応して、音声データを認識するために使用する音声認識エンジンを切り替える。
以上で、本実施形態1に係わる音声処理装置10の動作は終了する。
(本実施形態の効果)
本実施形態の構成によれば、識別部11は、入力された音声データの言語を識別する。認識部12は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。入力される音声データの言語が予め特定されていない場合がある。より詳細には、話者が複数の言語を使って、音声データを入力する場合がある。このような場合、音声処理装置10は、音声データの言語を識別した後、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。このため、複数の言語で入力されうる音声データを正確に音声認識することができる。
〔実施形態2〕
図3から図4までを参照して、実施形態2について説明する。
管制官は、パイロットに対し、的確な指示を出さなければならない。パイロットへの指示は、管制官の個人の判断に任されている。管制官には、状況を瞬時に判断する能力が要求される。ミスまたは事故を未然に防ぐために、管制官の精神的および肉体的な負荷を低減する技術が要望されている。
(音声処理装置20の構成)
図3は、本実施形態2に係わる音声処理装置20の構成を示すブロック図である。図3に示すように、音声処理装置20は、識別部11および認識部12に加えて、制御部23をさらに備えている。本実施形態2では、前記実施形態1の説明を引用して、識別部11および認識部12についての説明を省略する。
制御部23は、識別した言語と対応する言語解析エンジンによる文字列データの解析結果に基づいて、外部機器または外部システムを制御する。制御部23は、制御手段の一例である。
例えば、制御部23は、認識部12から、入力された音声データの認識結果として、音声データから変換された文字列データを受信する。そして、制御部23は、識別部11が識別した言語と対応する言語解析エンジンを用いて、文字列データを解析することによって、入力された音声データの意味を推測する。言語解析エンジンは、制御部23の中に備えられていてもよいし、あるいは、音声処理装置20と接続されるコンピュータまたはデータベース管理システムに備えられていてもよい。
一例では、制御部23は、文字列データの解析結果が示す音声データの意味が、指示の入力に関する基準に反する場合、外部機器に警告を提示するか、または外部システムに警告を通知する。指示の入力に関する基準は、ユーザが指示を述べるときに順守しなければならないルールを定めており、基準の内容には、語句の順序、使用してもよい語句の制限、言い回し、および専門用語が含まれる。
他の例では、制御部23は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、外部機器に警告を提示するか、または外部システムに警告を通知する。ここで、第1の文字列データおよび第2の文字列データは、どちらも、認識部12によって、時系列の音声データの異なる時間範囲を音声認識した結果として得られる。第1の文字列データは、第2の文字列データよりも、後の時間に入力された音声データから変換される。一例では、ユーザは、他のユーザが入力した指示を復唱する。この場合、制御部23は、第1の文字列と、第2の文字列とが一致するかどうか、または、第1の文字列に含まれる語句と、第2の文字列に含まれる語句とが一致するかどうかを判定する。一致しないという判定の結果が得られた場合、制御部23は、外部機器に警告を提示するか、または外部システムに警告を通知する。
さらに他の例では、制御部23は、文字列データの解析結果が示す音声データの意味に基づいて、音声による指示と対応するコンピュータプログラムを生成し、それをコンパイルして、外部システムにコマンドを送信してもよい。
制御部23が外部機器または外部システムに対して実行する制御は、上記の例に限定されない。制御部23は、音声により指示を入力するユーザを補助したり、ユーザが指示を顧みることができるようにしたりする用途で、任意に機能してよい。
(音声処理装置20の動作)
図4を参照して、本実施形態2に係わる音声処理装置20の動作を説明する。図4は、音声処理装置20の各部が実行する処理の流れを示すフローチャートである。
図4に示すように、識別部11は、一例では所定の時間ごとに、入力された音声データの言語を識別する(S101)。識別部11は、入力された音声データを認識部12に出力する。加えて、識別部11は、入力された音声データの言語の識別結果として、識別された言語を示す情報を認識部12に出力する。
次に、認識部12は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する(S102)。認識部12は、入力された音声データを制御部23に出力する。加えて、認識部12は、入力された音声データの認識結果として、音声データから変換された文字列データを、制御部23に出力する。本実施形態2のステップS101からS102までは、前記実施形態1のステップS1からS2までと対応する。
制御部23は、識別した言語と対応する言語解析エンジンによる文字列データの解析結果に基づいて、外部機器(例えば、図3の端末200、サーバ300)または外部システムを制御する(S103)。
以上で、本実施形態2に係わる音声処理装置20の動作は終了する。
(本実施形態の効果)
本実施形態の構成によれば、識別部11は、入力された音声データの言語を識別する。認識部12は、互いに異なる言語に関する複数の音声認識エンジンのうち、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。入力される音声データの言語が予め特定されていない場合がある。より詳細には、話者が複数の言語を使って、音声データを入力する場合がある。このような場合、音声処理装置20は、音声データの言語を識別した後、識別した言語と対応する音声認識エンジンを用いて、入力された音声データを文字列データに変換する。このため、複数の言語で入力されうる音声データを正確に音声認識することができる。
さらに、本実施形態の構成によれば、制御部23は、識別した言語と対応する言語解析エンジンによる文字列データの解析結果に基づいて、外部機器または外部システムを制御する。一例では、制御部23は、文字列データの解析結果が示す音声データの意味が、指示の入力に関する基準に反する場合、外部機器に警告を提示するか、または外部システムに警告を通知する。他の例では、制御部23は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、外部機器に警告を提示するか、または外部システムに警告を通知する。これにより、音声により指示を入力するユーザを補助したり、ユーザが指示を顧みることができるようにしたりすることができる。
〔実施形態3〕
図5から図6までを参照して、実施形態3について説明する。
本実施形態3では、前記実施形態2において説明した音声処理装置20を備えたシステム1の構成の一例を説明する。
(システム1)
図5は、本実施形態3に係わるシステム1の構成を概略的に示す図である。図5に示すように、システム1は、音声処理装置20、端末200、及びサーバ300を備えている。
音声処理装置20は、前記実施形態2において説明した構成を備えている。すなわち、音声処理装置20は、識別部11、認識部12、および制御部23を備えている。
端末200は、管制官(ユーザ)が音声による指示を行うために使用される。端末200は、音声による指示から音声データを生成し、音声処理装置20に音声データを入力する。端末200は、音声入力装置の一例である。
サーバ300は、音声データから変換された文字列データを記憶する。サーバ300は、外部記憶装置の一例である。サーバ300と、端末200および音声処理装置20との間は、ネットワークを介して、通信可能に接続されている。
(システム1の動作)
図6を参照して、本実施形態3に係わるシステム1の動作を説明する。図6は、システム1の各部が実行する工程を示すシーケンス図である。
図6に示すように、端末200は、音声による指示から音声データを生成する(P1)。
端末200は、生成した音声データを音声処理装置20へ送信する(P2)。
音声処理装置20は、端末200から入力された音声データを、文字列データに変換する(P3)。
音声処理装置20は、音声データから変換された文字列データを、サーバ300に送信する(P4)。
サーバ300は、音声データから変換された文字列データを受信して、文字列データを記憶する(P5)。
以上で、本実施形態3に係わるシステム1の動作は終了する。
(変形例)
一変形例では、システム1は、本実施形態2に係わる音声処理装置20に代えて、前記実施形態1に係わる音声処理装置10(図1)を備えていてもよい。本変形例では、音声処理装置10の識別部11は、端末200から、音声データを受信して、受信した音声データを識別する。例えば、制御部23は、識別部11による音声データの識別結果として、音声データの言語を示す情報(例えば、「英語」または「日本語」)を、端末200の画面に表示する。
(本実施形態の効果)
本実施形態の構成によれば、端末200は、音声データを入力する。音声処理装置20(あるいは10)は、複数の言語で入力されうる音声データを正確に音声認識する。サーバ300は、音声データから変換された文字列データを記憶する。これにより、音声により指示を入力するユーザを補助したり、ユーザが指示を顧みることができるようにしたりすることができる。
〔ハードウェア構成について〕
前記実施形態1~2で説明した音声処理装置10、20の各構成要素は、機能単位のブロックを示している。これらの構成要素の一部又は全部は、例えば図7に示すような情報処理装置900により実現される。図7は、情報処理装置900のハードウェア構成の一例を示すブロック図である。
図7に示すように、情報処理装置900は、一例として、以下のような構成を含む。
・CPU(Central Processing Unit)901
・ROM(Read Only Memory)902
・RAM(Random Access Memory)903
・RAM903にロードされるプログラム904
・プログラム904を格納する記憶装置905
・記録媒体906の読み書きを行うドライブ装置907
・通信ネットワーク909と接続する通信インタフェース908
・データの入出力を行う入出力インタフェース910
・各構成要素を接続するバス911
前記実施形態1~2で説明した音声処理装置10、20の各構成要素は、これらの機能を実現するプログラム904をCPU901が読み込んで実行することで実現される。各構成要素の機能を実現するプログラム904は、例えば、予め記憶装置905やROM902に格納されており、必要に応じてCPU901がRAM903にロードして実行される。なお、プログラム904は、通信ネットワーク909を介してCPU901に供給されてもよいし、予め記録媒体906に格納されており、ドライブ装置907が当該プログラムを読み出してCPU901に供給してもよい。
上記の構成によれば、前記実施形態において説明した音声処理装置10、20が、ハードウェアとして実現される。したがって、前記実施形態において説明した効果と同様の効果を奏することができる。
〔付記〕
本発明の一態様は以下の例のように記載されうるが、以下の例に限られない。
(付記1)
入力された音声データの言語を識別する識別手段と、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する認識手段とを備えた
音声処理装置。
(付記2)
識別した前記言語と対応する言語解析エンジンによる前記文字列データの解析結果に基づいて、外部機器または外部システムを制御する制御手段をさらに備えた
ことを特徴とする付記1に記載の音声処理装置。
(付記3)
前記制御手段は、前記文字列データの解析結果が示す前記音声データの意味が、指示の入力に関する基準に反する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする付記2に記載の音声処理装置。
(付記4)
前記制御手段は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
ことを特徴とする付記2に記載の音声処理装置。
(付記5)
前記識別手段は、入力された前記音声データに含まれる1または複数の単語を認識し、認識された前記1または複数の単語が属する言語を判定することによって、前記音声データの言語を識別する
ことを特徴とする付記1から4のいずれか1項に記載の音声処理装置。
(付記6)
前記認識手段は、識別された前記音声データの言語が変化したことを契機として、前記音声データを認識するために使用する音声認識エンジンを切り替える
ことを特徴とする付記1から5のいずれか1項に記載の音声処理装置。
(付記7)
前記識別手段は、入力された前記音声データの言語が英語及び日本語のどちらであるかを識別する
ことを特徴とする付記1から6のいずれか1項に記載の音声処理装置。
(付記8)
入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
音声処理方法。
(付記9)
入力された音声データの言語を識別し、
互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
ことをコンピュータに実行させるためのプログラム。
(付記10)
付記1から7のいずれか1項に記載の音声処理装置と、
前記音声データを入力する音声入力装置と、
前記音声データから変換された前記文字列データを記憶する外部記憶装置と
を備えたシステム。
(付記11)
前記外部記憶装置は、前記音声入力装置から取得した前記音声データと、前記音声データから変換された前記文字列データとを紐づけて記憶する
ことを特徴とする付記10に記載のシステム。
本発明は、例えば、航空管制システムに利用することができる。より一般的に、音声認識エンジンを利用しうる産業、例えば、警察、税関、および観光業などにおいて、本発明は利用されうる。
1 システム
10 音声処理装置
11 識別部
12 認識部
20 音声処理装置
23 制御部
200 端末(音声入力装置)
300 サーバ(外部記憶装置)

Claims (10)

  1. 入力された音声データの言語を識別する識別手段と、
    互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する認識手段とを備えた
    音声処理装置。
  2. 識別した前記言語と対応する言語解析エンジンによる前記文字列データの解析結果に基づいて、外部機器または外部システムを制御する制御手段をさらに備えた
    ことを特徴とする請求項1に記載の音声処理装置。
  3. 前記制御手段は、前記文字列データの解析結果が示す前記音声データの意味が、指示の入力に関する基準に反する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
    ことを特徴とする請求項2に記載の音声処理装置。
  4. 前記制御手段は、第1の文字列データの解析結果が示す第1の音声データの意味が、第2の文字列データの解析結果が示す第2の音声データの意味と矛盾する場合、前記外部機器に警告を提示するか、または前記外部システムに警告を通知する
    ことを特徴とする請求項2に記載の音声処理装置。
  5. 前記識別手段は、入力された前記音声データに含まれる1または複数の単語を認識し、認識された前記1または複数の単語が属する言語を判定することによって、前記音声データの言語を識別する
    ことを特徴とする請求項1から4のいずれか1項に記載の音声処理装置。
  6. 前記認識手段は、識別された前記音声データの言語が変化したことを契機として、前記音声データを認識するために使用する音声認識エンジンを切り替える
    ことを特徴とする請求項1から5のいずれか1項に記載の音声処理装置。
  7. 前記識別手段は、入力された前記音声データの言語が英語及び日本語のどちらであるかを識別する
    ことを特徴とする請求項1から6のいずれか1項に記載の音声処理装置。
  8. 入力された音声データの言語を識別し、
    互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
    音声処理方法。
  9. 入力された音声データの言語を識別し、
    互いに異なる言語に関する複数の音声認識エンジンのうち、識別した前記言語と対応する音声認識エンジンを用いて、入力された前記音声データを文字列データに変換する
    ことをコンピュータに実行させるためのプログラム。
  10. 請求項1から7のいずれか1項に記載の音声処理装置と、
    前記音声データを前記音声処理装置に入力する音声入力装置と、
    前記音声データから変換された前記文字列データを記憶する外部記憶装置と
    を備えたシステム。
JP2020179017A 2020-10-26 2020-10-26 音声処理装置、音声処理方法、システム、およびプログラム Active JP7160077B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020179017A JP7160077B2 (ja) 2020-10-26 2020-10-26 音声処理装置、音声処理方法、システム、およびプログラム
US17/498,963 US20220130373A1 (en) 2020-10-26 2021-10-12 Voice processing device, voice processing method, system, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020179017A JP7160077B2 (ja) 2020-10-26 2020-10-26 音声処理装置、音声処理方法、システム、およびプログラム

Publications (2)

Publication Number Publication Date
JP2022070016A true JP2022070016A (ja) 2022-05-12
JP7160077B2 JP7160077B2 (ja) 2022-10-25

Family

ID=81257519

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020179017A Active JP7160077B2 (ja) 2020-10-26 2020-10-26 音声処理装置、音声処理方法、システム、およびプログラム

Country Status (2)

Country Link
US (1) US20220130373A1 (ja)
JP (1) JP7160077B2 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2018141742A (ja) * 2017-02-28 2018-09-13 パイオニア株式会社 ナビゲーション装置、ナビゲーション方法、及びナビゲーション用プログラム
WO2019111346A1 (ja) * 2017-12-06 2019-06-13 ソースネクスト株式会社 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
WO2020012813A1 (ja) * 2018-07-09 2020-01-16 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020056972A (ja) * 2018-10-04 2020-04-09 富士通株式会社 言語識別プログラム、言語識別方法及び言語識別装置
US11514893B2 (en) * 2020-01-29 2022-11-29 Microsoft Technology Licensing, Llc Voice context-aware content manipulation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009300573A (ja) * 2008-06-11 2009-12-24 Nippon Syst Wear Kk 多言語対応音声認識装置、システム、音声の切り替え方法およびプログラム
JP2018141742A (ja) * 2017-02-28 2018-09-13 パイオニア株式会社 ナビゲーション装置、ナビゲーション方法、及びナビゲーション用プログラム
WO2019111346A1 (ja) * 2017-12-06 2019-06-13 ソースネクスト株式会社 双方向音声翻訳システム、双方向音声翻訳方法及びプログラム
WO2020012813A1 (ja) * 2018-07-09 2020-01-16 ソニー株式会社 情報処理装置、および情報処理方法、並びにプログラム

Also Published As

Publication number Publication date
JP7160077B2 (ja) 2022-10-25
US20220130373A1 (en) 2022-04-28

Similar Documents

Publication Publication Date Title
US10431203B2 (en) Machine training for native language and fluency identification
EP3144930A1 (en) Apparatus and method for speech recognition, and apparatus and method for training transformation parameter
US11538478B2 (en) Multiple virtual assistants
WO2018047436A1 (ja) 翻訳装置及び翻訳方法
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
US11222622B2 (en) Wake word selection assistance architectures and methods
CN113505591A (zh) 一种槽位识别方法及电子设备
US20200058290A1 (en) Artificial intelligence apparatus for correcting synthesized speech and method thereof
CN112818680B (zh) 语料的处理方法、装置、电子设备及计算机可读存储介质
US11183170B2 (en) Interaction control apparatus and method
JP2021022928A (ja) 人工知能基盤の自動応答方法およびシステム
KR20190109651A (ko) 인공지능 기반의 음성 모방 대화 서비스 제공 방법 및 시스템
JP2022070016A (ja) 音声処理装置、音声処理方法、およびプログラム
JP2010054897A (ja) 音声認識装置、音声認識プログラム、受付装置および受付プログラム
KR20220070466A (ko) 지능적 음성 인식 방법 및 장치
KR20210051523A (ko) 도메인 자동 분류 대화 시스템
US10304460B2 (en) Conference support system, conference support method, and computer program product
Rataj et al. AcListant with Continuous Learning: Speech Recognition in Air Traffic Control
KR102319013B1 (ko) 대화문 발화 성격 인식 방법 및 시스템
CN109887490A (zh) 用于识别语音的方法和装置
US11763809B1 (en) Access to multiple virtual assistants
CN113593523A (zh) 基于人工智能的语音检测方法、装置及电子设备
US20240112682A1 (en) Speaker identification method, speaker identification device, and non-transitory computer readable recording medium
JP2020201322A (ja) 案内ロボットシステム及び会話作成方法
US11922938B1 (en) Access to multiple virtual assistants

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201026

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20211020

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220926

R151 Written notification of patent or utility model registration

Ref document number: 7160077

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151