JP4466666B2 - 議事録作成方法、その装置及びそのプログラム - Google Patents

議事録作成方法、その装置及びそのプログラム Download PDF

Info

Publication number
JP4466666B2
JP4466666B2 JP2007065081A JP2007065081A JP4466666B2 JP 4466666 B2 JP4466666 B2 JP 4466666B2 JP 2007065081 A JP2007065081 A JP 2007065081A JP 2007065081 A JP2007065081 A JP 2007065081A JP 4466666 B2 JP4466666 B2 JP 4466666B2
Authority
JP
Japan
Prior art keywords
language
model
participant
minutes
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007065081A
Other languages
English (en)
Other versions
JP2008225191A (ja
Inventor
周平 前川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007065081A priority Critical patent/JP4466666B2/ja
Priority to US12/047,020 priority patent/US8082142B2/en
Publication of JP2008225191A publication Critical patent/JP2008225191A/ja
Application granted granted Critical
Publication of JP4466666B2 publication Critical patent/JP4466666B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Description

本発明は、議事録を電子的に作成する議事録作成方法、その装置及びそのプログラムに関する。
音声認識と翻訳機能を統合した議事録作成装置は従来存在しない。そこで例えば従来の音声認識を使用し多言語で結果を返すシステムの一例が、特許文献1に記載されている。図12を参照すると、この発明装置は認識対象の複数の言語の発音辞書102および対応する音響モデル103と、認識対象の複数の言語の発音辞書102で定義される単語を用いて作成された1つの多言語化された認識用文法104と、言語に独立な1つの音声分析部101および探索部105を備え、音声分析部101において入力音声から抽出された特徴パラメータに対して、探索部105において認識対象の複数の言語の音響モデルを用いて認識用文法で表現される単語列との間の照合を行い、照合スコアの最も高い単語列を認識結果として出力する多言語音声認識方法、装置、およびプログラムである。この発明を議事録作成に応用したとする。その場合、この発明において、ユーザが意識して翻訳用辞書を用意、更新する作業が必要である。
特開2004−101727号公報(図1)
多言語間で行われる会議において議事録を作成する場合、会議の参加者が執筆者として会議中に筆記し翻訳のための労力が必要となる。そこで例えば過去の発明において、音声認識による議事録作成が提案されており、この発明を利用して音声認識結果に翻訳機能を適応することで、議事録翻訳に応用することができる。ところが、この施策では発話者の言語で認識されてしまうため、議事録が複数の言語で出力されてしまう問題があった。また、翻訳機能を使用する際、変換元・変換先の翻訳辞書を予め複数用意し、明示的に変換元・変換先言語を指定して翻訳する必要があった。
そこで、本発明は、複数の言語で行われる会議の議事録を作成することが出来る議事録作成方法、その装置及びそのプログラムを提供することを目的とする。
本発明によれば、入力した音声をその言語のテキストデータとする音声認識ステップと、前記テキストデータを所定の言語に翻訳する翻訳ステップと、翻訳された前記テキストデータを基に、議事録を作成する議事録作成するステップと、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択ステップと、を備え、前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳ステップは、前記翻訳辞書選択ステップにより選択された前記翻訳辞書を利用し、前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成方法が提供される。
また、本発明によれば、入力した音声をその言語のテキストデータとする音声認識ステップと、前記テキストデータを所定の言語に翻訳する翻訳ステップと、翻訳された前記テキストデータを基に、議事録を作成する議事録作成するステップと、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択ステップと、を備え、前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳ステップは、前記翻訳辞書選択ステップにより選択された前記翻訳辞書を利用し、前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成方法が提供される
更に、本発明によれば、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを所定の言語に翻訳する翻訳手段と、翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成装置が提供される
更に、本発明によれば、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを所定の言語に翻訳する翻訳手段と、翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成装置が提供される
更に、本発明によれば、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを所定の言語に翻訳する翻訳手段と、訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成装置としてコンピュータを機能させるためのプログラムが提供される
更に、本発明によれば、入力した音声をその言語のテキストデータとする音声認識手段と、前記テキストデータを所定の言語に翻訳する翻訳手段と、翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、を備え、前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成装置としてコンピュータを機能させるためのプログラムが提供される
本発明の効果は、会議主催者や会議参加者が明示的に指定をしなくても、確認するのに最適な言語に翻訳して、会議議事録が自動的に作成できることにある。
その理由は、会議開催データと会議参加者のユーザ情報の言語情報から、個々の会議参加者に最も適した翻訳Webサービス接続先を自動的に決定し、翻訳された議事録を取得することができるためである。
以下、図面を参照して本発明を実施するための最良の形態について詳細に説明する。
本発明を音声認識ソフトウェアとWebサービスに適応した具体例で説明する。図8は会議室A、会議室B、会議開催サーバ・議事録作成サーバ830がネットワーク840で接続されている。会議開催前に会議主催者831が会議開催サーバ830にレジュメ等の会議開催情報を登録する(例:会議主催者はアメリカ人で標準英語を話し、主催者が理解できるように標準英語で会議議事録を作成する。会議室Aの端末811を利用する者は標準の日本語を話す者である。会議室Aの端末812の端末812を利用する者は関西弁の日本語を話す者である。・・・)。この会議開催情報を集めた会議開催データベースを元に、議題に最も適した言語モデル及び音響モデルを自動的に言語モデル・音響モデル配布Webサービス850から選択し、会議開催前に事前にダウンロードを各端末へ行う。また、会議開催データベース830を基に、翻訳元情報と翻訳先情報と翻訳における議題に最も適した翻訳先話題を自動的にWebサービス860から選択し、会議開催前に各端末分だけ接続先を決定する。
議題に最も適した翻訳先話題とした具体例としては、例えば英語に翻訳する場合において、化学向けに実施する英語辞書、情報科学向けに実施する英語辞書を想定している。
自動的に選択するためには、次のようなことを行う。すなわち、まず、URLのトップドメインで言語圏を決定する(イギリス英語なら.us、日本語へ翻訳するのなら.jp、中国語へ翻訳するのなら.cnを検索する)。この場合、さらにURLのサブドメインを確認することによりどのような分野のWebサービスかを絞り込む(または、Webサービスへの問い合わせを行い、該当ドメインがどの分野の話題を所持しているかの回答をもらう)。
話題会議室Aと会議室Bの各端末(811、812、813、821、822)には音声認識プロセスとIP電話サービスが動作しており、端末に接続されたマイクより各国の参加者が会議発言を入力すると、音声がそれぞれの会議室で聞ける。音声認識プロセスは、ダウンロードされた言語モデル・音響モデルに切り替えされた後、音声認識を開始する。これにより自動的に発言者の言語(例:会議参加者812が関西弁で発話)毎に最適な認識結果を作成することができる。同時に音声認識結果がネットワーク経由で議事録作成サーバ830に送信され、議事録データとして登録される。議事録作成サーバ830は議事録を最適な翻訳Webサービス860を使用して任意の言語(例:会議参加者812が関西弁で発話した内容を標準英語にする)に翻訳することができる。各端末は議事録作成サーバ830に接続することにより、翻訳後の議事録を参照することができる。
次に、本発明の実施形態の構成について図面を参照して詳細に説明する。図1を参照すると、本発明の第1の実施形態は、議事録作成部10とモデル選択部20と配布Webサービス部30と翻訳Webサービス40部を備える。議事録作成部10は、音声入力手段101と、音声認識手段102と、議事録作成手段103と、議事録表示手段104を含む。モデル選択部20は、会議開催予定入力手段201と、会議開催データベース202と、モデル選択手段203と、翻訳選択手段204を含む。配布Webサービス部30は、言語モデル301と、音響モデル302と、モデル配布手段303を含む。翻訳Webサービス部40は、翻訳実行手段401と、翻訳辞書402を含む。
これらの手段はそれぞれ概略つぎのように動作する。会議開催に先立ち、会議の開催情報やレジュメを会議開催予定入力手段201にて入力し、会議開催データベース202に保存する。モデル選択手段203は会議開催データベース202の情報を元に適切な配布Webサービス30を選択し、モデル配布手段303にて言語モデル301及び音響モデル302を議事録作成部10にダウンロードさせる。翻訳選択手段204は、会議開催データベース202の情報を元にユーザ毎の認識データ送信先に関して、適切な翻訳実行手段401を選択する。音声認識手段102は、音声入力手段101から入力された発話音声とモデル配布手段303から得られた辞書データを元に音声認識プロセスを実行し、認識データを出力し翻訳実行手段401に渡す。翻訳実行手段401は翻訳判断情報を元に認識データを翻訳し、議事録作成手段103に翻訳済み認識データとして送信する。議事録作成手段103は、ネットワークを介して会議参加者分の翻訳済み認識データを受信し、議事録データを生成する。また議事録作成手段103は、認識前のデータを受信して議事録データを生成することでもできる。議事録表示手段104は、議事録データをクライアントの画面上に表示する。翻訳実行手段401は、翻訳元言語と翻訳先言語を翻訳選択手段204から渡される翻訳判断情報から取得する。認識前のデータとはデジタル音声そのもののことである。
次に、図2のシーケンス図、図3、図4及び図9のアクティビティ図を参照して本発明の第1の実施形態の動作について詳細に説明する。まず、会議開催主催者は会議開催前に予め、会議開催予定入力を行い、会議開催予定データを会議開催サーバに登録する(図2の2100)。図5に会議開催通知5011をXMLデータに変換し、会議開催データ5021として登録している例を示している。次に、会議開催サーバ830は配布サービスを順に配布サービスの数だけ、配布サービスに含まれる言語モデル、音響モデルが、それぞれ、会議議題と言語情報に最適であるサービスがどれかを検索する。図2では会議議題と言語情報を元に問い合わせていて、会議議題と言語モデルが一致していない回答状況を示している(図2の2101)(この他にも、言語情報と音響モデルとが一致しないために、当該配布サービスが採用されない場合がある。)。さらに、配布サービスに会議議題と言語議題を元に問い合わせが起こっており、会議議題と言語情報が、それぞれ、配布サービスの言語モデルと音響モデルに一致した回答状況を示している(図2の2102)。言語モデルが会議議題に最適であるかどうかということの意味は、辞書がその分野に適しているかどうかということである。言語モデルと会議議題とが一致するとは、言語モデルが認識結果として出力する際に議題に最も近いものを意味している。ここで一致するとは、認識率が高まるということである。
図3に問い合わせから回答までの詳細を示している。
配布WEBサービス部30からWeb情報を取得し、会議開催データ読み込み310と合わせて音響モデル配布指示320は配布Webサービスの音響モデル検索360に言語・方言情報を送信する。
図4には図3の音響モデル配布指示320の詳細を示している。
ユーザ情報読み込み(図4の4201)の結果、ユーザ情報から言語情報を取得できる場合、参加者名から国・言語情報を決定する(図4の4202、4205)。図6に会議開催データ6201と共にユーザ情報テーブル6202を予め用意して置き、これらのデータを元に会議議題と国・言語情報をモデル選択手段203及び翻訳選択手段204に送信する例を示している。参加者の情報が未知で参加者名だけでは国・言語情報が特定できない場合は、会議開催場所を読み込み、場所名から国・言語情報を決定する(図4の4203、4204)。図7に会議開催データ6201と共に会議開催場所テーブル7202を予め用意しておきデータを元に会議議題と国・言語情報をモデル選択手段203及び翻訳選択手段204に送信する例を示している。このようにしてどの音響モデルを検索手段360の候補にするか絞り込む(図4の4206)。
図3の音響モデル検索360は送信された言語・方言情報を元に該当言語を検索する。自サーバに見つからなかった場合、他サーバ検索363をWEBサービス・サーバ数だけ行う。見つかった場合、音響モデル二次検索361において、ユーザの方言情報と一致する音響モデルを確定し、音響モデル配布準備362から配布元URL情報を会議開催サーバに返却する。このようにして音響モデルダウンロード元を決定する。言語モデル配布指示330は配布元URLへ会議議題情報を送信する。
図4に言語モデル配布指示330の詳細を示している。
会議議題情報の中の会議議題をテキストマイニングし(図4の4301)、マイニング結果から言語モデルを特定できる場合は、モデル接続先情報をこの時点で決定する(図4の4305)。マイニング結果から言語モデルを特定できない場合は、レジュメ情報をテキストマイニングし(図4の4302)、同時に参考資料格納先から情報をダウンロード、これらの参考資料のテキストマイニングを実施する(図4の4303、4304)。両方のマイニング結果からモデル接続先情報を決定する(図4の4305)。言語モデル検索370は送信された会議議題情報を元に言語モデルを検索する。自サービスに見つからなかった場合、他サービス検索372をWEBサービス数だけ行う。言語モデル配布準備371において、会議議題情報と一致する言語モデルを確定し、該当URL、サービス情報を会議開催サーバに返却する。音響モデル配布指示320、言語モデル配布指示330を会議参加者分繰り返すことにより、会議開催前に辞書データを配布準備する。
図2には翻訳元言語情報と翻訳先言語情報を元に翻訳Webサービスに問い合わせていて、翻訳が可能な状況を示している(図2の2103)。図9に問い合わせから回答までの詳細を示している。配布WEBサービスからWeb情報を取得し、会議開催データを読み込み910と合わせて翻訳選択指示920は翻訳Webサービスの翻訳辞書検索940に翻訳元・翻訳先言語情報を送信する。翻訳元情報は各発話ユーザの言語・方言情報であり、自動的に取得される。翻訳先は会議主催者の言語・方言情報として決定するなど会議で一意に決定できる。また、受信ユーザ毎の言語・方言情報も自動的に取得されるため、翻訳先はこちらにもできる。図9の翻訳辞書検索940は送信された翻訳元・翻訳先情報を元に該当言語を検索する。自サーバに見つからなかった場合、他サーバ検索943をWEBサービス・サーバ数だけ行う。見つかった場合、翻訳辞書二次検索941において、既に言語モデル選択で作成済みの会議議題情報を参照し、より翻訳精度が上がる該当分野の辞書を確定し、翻訳選択準備942から接続先URL情報、サービス情報を会議開催サーバに返却する。このようにして会議参加者分だけ翻訳Webサービス接続先を決定する。
会議開催時間を元に開催前に会議開催サーバは会議参加者に参加可能かを確認し(図2の2110及び2111)、参加可能者は配布サービスから辞書データのダウンロードを行う(図2の2112)。会議開催時間になると、会議開催サーバから議事録作成サーバに会議開催データを送信する(図2の2121)。これにより、音声認識を使用し会話情報を議事録として受信することが可能となる(図2の2122)。会議議題送信(図2の2122)を議事録作成サーバに行うと、翻訳Webサービスに会話情報を送信し(図2の2123)、翻訳された情報を議事録作成サーバが受信する。もちろん会議中に翻訳が要らない箇所は、翻訳Webサービスへの会話情報送信は省略することができる。このようにして、会議終了(図2の2130)まで議事録作成を行う。
次に、本発明の第1の実施形態の効果について説明する。本発明の第1の実施形態では、会議開催データを元にその議題に合った言語モデル・音響モデルを自動的にダウンロードし、音声認識辞書として適応、かつ会議開催データを元にその議題と参加者に合った翻訳辞書を用意するように構成されているため、議題に合った認識結果とその認識結果を元にした翻訳結果を期待できる(また、本発明の第1の実施形態では、さらに、各地方言→標準語変換を行った言語モデルを用意した場合、会話された各語の方言を標準語に変換してから翻訳を行うため、翻訳元情報を削減することができる)。
次に、本発明の第2の実施形態の構成について図面を参照して説明する。図10を参照すると、本発明の第2の実施形態の構成は、第1の実施形態の構成において翻訳情報比較手段105及び翻訳情報送信手段403を追加した構成図である。すなわち第1の実施形態の構成における議事録作成、モデル選択、配布Webサービス及び作成翻訳Webサービスによる処理と同一の処理に加えて、音声認識手段102で非同期に翻訳Webサービスに認識データを送信し、翻訳手段401による翻訳終了やタイマ等のイベントを契機に、翻訳情報送信手段403は翻訳情報比較手段105に翻訳済み認識データを送信する。翻訳情報比較手段105は、翻訳済みの認識データ、翻訳前の認識データ及び音声データを基に翻訳が正確かどうか比較する。翻訳情報比較手段105は修正済みデータを議事録作成手段103へ送信する。本発明の第2の実施形態では、会議参加者が会議終了後直ぐに会議議事録の翻訳を必要とせず、違う時間、違う場所にて翻訳済みの議事録を取得したい時に、非同期に翻訳データを取得することができる。こうして、受け取った翻訳済みの議事録を自国語で確認して翻訳結果が変更された議題に合った認識結果を期待できる。
翻訳済みの認識データ、翻訳前の認識データ及び音声データを基に翻訳が正確かどうか比較することは、人手により行う。
図11で表される内容の図2で表される内容との違いは、図11において議事録作成サーバと翻訳サービスが非同期で動作することである。これは議事録作成サーバで認識結果による議事録を一度作成しておいて、後から一括で翻訳を行うことを前提としている。
なお、上記の実施形態では、例えば、中国側には英語を中国語に翻訳する同時通訳者がおり、米国側には中国語を英語に翻訳する同時通訳者がいると想定しており、各参加者は、通訳者を通じて、他国の言語での発言を理解できるものとしている。
本発明によれば、スケジューリングされた業務において、予め関連情報を提出しておくことによりデータ選択を自動的に決定すると言った用途に適用できる。例えば、専門用語が非常に多く出てくるような多言語の定期翻訳において、クライアントから音声ファイルをアップロードしWebサービスによって辞書を予め切り替えることにより、的確な認識結果を表示する翻訳事業といった用途にも適用可能である。
本発明の実施形態による議事録作成装置の主要部の構成を示すブロック図である。 本発明の実施形態による議事録作成方法を示すシーケンス図である。 本発明の実施形態による音響モデル検索及び言語モデル検索の方法を示す第1のフローチャートである。 本発明の実施形態による音響モデル検索及び言語モデル検索の方法を示す第2のフローチャートである。 本発明の実施形態による会議開催通知及び会議開催データを示す図である。 本発明の実施形態による会議開催データ、ユーザ情報テーブル、モデル選択手段及び翻訳選択手段を示す図である。 本発明の実施形態による会議開催データ、開催場所情報テーブル、モデル選択手段及び翻訳選択手段を示す図である。 本発明の実施形態による議事録作成装置の構成を示す概念図である。 本発明の実施形態による翻訳辞書検索の方法を示すフローチャートである。 本発明の他の実施形態による議事録作成装置の主要部の構成を示すブロック図である。 本発明の他の実施形態による議事録作成方法を示すシーケンス図である。 従来例による音声認識装置の構成を示すブロック図である。
符号の説明
10 議事録作成部
20 モデル選択部
30 配布Webサービス
40 翻訳Webサービス
101 音声入力手段
102 音声認識手段
103 議事録作成手段
104 議事録表示手段
201 会議開催予定入力手段
202 会議開催データベース
203 モデル選択手段
204 翻訳選択手段
301 言語モデル
302 音響モデル
303 モデル配布手段
401 翻訳実行手段
402 翻訳辞書

Claims (12)

  1. 入力した音声をその言語のテキストデータとする音声認識ステップと、
    前記テキストデータを所定の言語に翻訳する翻訳ステップと、
    翻訳された前記テキストデータを基に、議事録を作成する議事録作成するステップと、
    入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、
    会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択ステップと、
    を備え、
    前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用し、
    前記翻訳ステップは、前記翻訳辞書選択ステップにより選択された前記翻訳辞書を利用し、
    前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
    各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、
    前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成方法。
  2. 入力した音声をその言語のテキストデータとする音声認識ステップと、
    前記テキストデータを所定の言語に翻訳する翻訳ステップと、
    翻訳された前記テキストデータを基に、議事録を作成する議事録作成するステップと、
    入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択ステップと、
    会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択ステップと、
    を備え、
    前記音声認識ステップは、前記モデル選択ステップにより選択された前記音響モデル及び前記言語モデルを利用し、
    前記翻訳ステップは、前記翻訳辞書選択ステップにより選択された前記翻訳辞書を利用し、
    前記モデル選択ステップは、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
    各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、
    前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択ステップは、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成方法。
  3. 請求項1又は2に記載の議事録作成方法において、
    前記翻訳辞書選択ステップは、会議への各参加者毎に、前記翻訳辞書を選択し、
    各参加者毎の利用言語及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択ステップは、前記会議開催予定データに記述されている各参加者毎の利用言語及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とする議事録作成方法。
  4. 請求項1又は2に記載の議事録作成方法において、
    前記翻訳辞書選択ステップは、会議への各参加者毎に、前記翻訳辞書を選択し、
    各参加者毎の参加場所及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択ステップは、前記会議開催予定データに記述されている各参加者毎の参加場所及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とする議事録作成方法。
  5. 入力した音声をその言語のテキストデータとする音声認識手段と、
    前記テキストデータを所定の言語に翻訳する翻訳手段と、
    翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、
    入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
    会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、
    を備え、
    前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、
    前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、
    前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
    各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、
    前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成装置。
  6. 入力した音声をその言語のテキストデータとする音声認識手段と、
    前記テキストデータを所定の言語に翻訳する翻訳手段と、
    翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、
    入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
    会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、
    を備え、
    前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、
    前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、
    前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
    各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、
    前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成装置。
  7. 請求項5又は6に記載の議事録作成装置において、
    前記翻訳辞書選択手段は、会議への各参加者毎に、前記翻訳辞書を選択し、
    各参加者毎の利用言語及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とする議事録作成装置。
  8. 請求項5又は6に記載の議事録作成装置において、
    前記翻訳辞書選択手段は、会議への各参加者毎に、前記翻訳辞書を選択し、
    各参加者毎の参加場所及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とする議事録作成装置。
  9. 入力した音声をその言語のテキストデータとする音声認識手段と、
    前記テキストデータを所定の言語に翻訳する翻訳手段と、
    翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、
    入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
    会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、
    を備え、
    前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、
    前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、
    前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
    各参加者毎の利用言語は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語を基に、各参加者毎の音響モデルを選択し、
    前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の利用言語を基に、言語モデルを選択することを特徴とする議事録作成装置としてコンピュータを機能させるためのプログラム。
  10. 入力した音声をその言語のテキストデータとする音声認識手段と、
    前記テキストデータを所定の言語に翻訳する翻訳手段と、
    翻訳された前記テキストデータを基に、議事録を作成する議事録作成する手段と、
    入力される言語の種類と議題、レジュメ又は参考資料とを基に、それぞれ、それらに適した音響モデル及び言語モデルとを選択するモデル選択手段と、
    会議開催データベースに基づいて選択された入力される言語の種類と議事録で用いられる言語の種類とを基に、翻訳辞書を選択する翻訳辞書選択手段と、
    を備え、
    前記音声認識手段は、前記モデル選択手段により選択された前記音響モデル及び前記言語モデルを利用し、
    前記翻訳手段は、前記翻訳辞書選択手段により選択された前記翻訳辞書を利用し、
    前記モデル選択手段は、会議への各参加者毎に、前記音響モデル及び前記言語モデルを選択し、
    各参加者毎の参加場所は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所を基に、各参加者毎の音響モデルを選択し、
    前記議題、レジュメ又は参考資料は予め会議開催予定データに記述されており、前記モデル選択手段は、前記会議開催予定データに記述されている議題、レジュメ又は参考資料及び各参加者毎の参加場所を基に、言語モデルを選択することを特徴とする議事録作成装置としてコンピュータを機能させるためのプログラム。
  11. 請求項9又は10に記載のプログラムにおいて、
    前記翻訳辞書選択手段は、会議への各参加者毎に、前記翻訳辞書を選択し、
    各参加者毎の利用言語及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択手段は、前記会議開催予定データに記述されている各参加者毎の利用言語及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とするプログラム
  12. 請求項9又は10に記載のプログラムにおいて、
    前記翻訳辞書選択手段は、会議への各参加者毎に、前記翻訳辞書を選択し、
    各参加者毎の参加場所及び議事録で利用する言語は予め会議開催予定データに記述されており、前記翻訳辞書選択手段は、前記会議開催予定データに記述されている各参加者毎の参加場所及び議事録で利用する言語を基に、翻訳辞書を選択することを特徴とするプログラム
JP2007065081A 2007-03-14 2007-03-14 議事録作成方法、その装置及びそのプログラム Expired - Fee Related JP4466666B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007065081A JP4466666B2 (ja) 2007-03-14 2007-03-14 議事録作成方法、その装置及びそのプログラム
US12/047,020 US8082142B2 (en) 2007-03-14 2008-03-12 Speech recognition method, speech recognition system and server thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007065081A JP4466666B2 (ja) 2007-03-14 2007-03-14 議事録作成方法、その装置及びそのプログラム

Publications (2)

Publication Number Publication Date
JP2008225191A JP2008225191A (ja) 2008-09-25
JP4466666B2 true JP4466666B2 (ja) 2010-05-26

Family

ID=39843876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007065081A Expired - Fee Related JP4466666B2 (ja) 2007-03-14 2007-03-14 議事録作成方法、その装置及びそのプログラム

Country Status (2)

Country Link
US (1) US8082142B2 (ja)
JP (1) JP4466666B2 (ja)

Families Citing this family (209)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4987682B2 (ja) * 2007-04-16 2012-07-25 ソニー株式会社 音声チャットシステム、情報処理装置、音声認識方法およびプログラム
US8620658B2 (en) 2007-04-16 2013-12-31 Sony Corporation Voice chat system, information processing apparatus, speech recognition method, keyword data electrode detection method, and program for speech recognition
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8311824B2 (en) * 2008-10-27 2012-11-13 Nice-Systems Ltd Methods and apparatus for language identification
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5257330B2 (ja) * 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
US8682640B2 (en) * 2009-11-25 2014-03-25 International Business Machines Corporation Self-configuring language translation device
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US20110246172A1 (en) * 2010-03-30 2011-10-06 Polycom, Inc. Method and System for Adding Translation in a Videoconference
US20120078635A1 (en) * 2010-09-24 2012-03-29 Apple Inc. Voice control system
JP5066242B2 (ja) * 2010-09-29 2012-11-07 株式会社東芝 音声翻訳装置、方法、及びプログラム
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US20120253784A1 (en) * 2011-03-31 2012-10-04 International Business Machines Corporation Language translation based on nearby devices
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
US9107012B2 (en) 2011-12-01 2015-08-11 Elwha Llc Vehicular threat detection based on audio signals
US9159236B2 (en) 2011-12-01 2015-10-13 Elwha Llc Presentation of shared threat information in a transportation-related context
US9368028B2 (en) 2011-12-01 2016-06-14 Microsoft Technology Licensing, Llc Determining threats based on information from road-based devices in a transportation-related context
US10875525B2 (en) 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US8934652B2 (en) 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US9245254B2 (en) 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US9064152B2 (en) 2011-12-01 2015-06-23 Elwha Llc Vehicular threat detection based on image analysis
US9053096B2 (en) * 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US8811638B2 (en) 2011-12-01 2014-08-19 Elwha Llc Audible assistance
US9886511B2 (en) * 2012-01-09 2018-02-06 Red Hat, Inc. Provisioning and rendering local language content by a server caching a content presentation engine to a user device
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9081762B2 (en) 2012-07-13 2015-07-14 Enyuan Wu Phrase-based dictionary extraction and translation quality evaluation
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
EP4138075A1 (en) 2013-02-07 2023-02-22 Apple Inc. Voice trigger for a digital assistant
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101759009B1 (ko) 2013-03-15 2017-07-17 애플 인크. 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200728A1 (en) 2013-06-09 2014-12-18 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
US20140372118A1 (en) * 2013-06-17 2014-12-18 Speech Morphing Systems, Inc. Method and apparatus for exemplary chip architecture
JP6163266B2 (ja) 2013-08-06 2017-07-12 アップル インコーポレイテッド リモート機器からの作動に基づくスマート応答の自動作動
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20180247640A1 (en) * 2013-12-06 2018-08-30 Speech Morphing Systems, Inc. Method and apparatus for an exemplary automatic speech recognition system
US10068565B2 (en) * 2013-12-06 2018-09-04 Fathy Yassa Method and apparatus for an exemplary automatic speech recognition system
US20150161986A1 (en) * 2013-12-09 2015-06-11 Intel Corporation Device-based personal speech recognition training
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US9620120B2 (en) * 2015-05-22 2017-04-11 Kabushiki Kaisha Toshiba Minutes taking system, minutes taking method, and image forming apparatus
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9437191B1 (en) * 2015-12-30 2016-09-06 Thunder Power Hong Kong Ltd. Voice control system with dialect recognition
US9697824B1 (en) 2015-12-30 2017-07-04 Thunder Power New Energy Vehicle Development Company Limited Voice control system with dialect recognition
CN107102990A (zh) * 2016-02-19 2017-08-29 株式会社东芝 对语音进行翻译的方法和装置
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10529324B1 (en) * 2016-12-27 2020-01-07 Cognistic, LLC Geographical based voice transcription
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
CN110491388A (zh) * 2018-05-15 2019-11-22 视联动力信息技术股份有限公司 一种音频数据的处理方法和终端
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
JP2021081483A (ja) * 2019-11-15 2021-05-27 前田建設工業株式会社 議事録データ作成システム
JP6879521B1 (ja) * 2019-12-02 2021-06-02 國立成功大學National Cheng Kung University 多言語音声認識およびテーマ−意義素解析方法および装置
KR20210081103A (ko) * 2019-12-23 2021-07-01 엘지전자 주식회사 복수의 언어를 포함하는 음성을 인식하는 인공 지능 장치 및 그 방법
CN112951238A (zh) * 2021-03-19 2021-06-11 河南蜂云科技发展有限公司 一种基于语音处理的科技法庭智能管理方法、系统及存储介质
CN116682414B (zh) * 2023-06-06 2024-01-30 安徽迪科数金科技有限公司 一种基于大数据的方言语音识别系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10136327A (ja) 1996-10-25 1998-05-22 Meidensha Corp ディスクトップ会議システム
JP2000242645A (ja) 1999-02-24 2000-09-08 Sony Corp 音声翻訳装置、音声翻訳方法及び音声翻訳制御プログラムを記録した記録媒体
JP2003141113A (ja) 2001-10-31 2003-05-16 Casio Comput Co Ltd 翻訳装置、音声翻訳方法、およびプログラム
JP3776391B2 (ja) 2002-09-06 2006-05-17 日本電信電話株式会社 多言語音声認識方法、装置、プログラム
US20050192811A1 (en) * 2004-02-26 2005-09-01 Wendy Parks Portable translation device
US7643985B2 (en) * 2005-06-27 2010-01-05 Microsoft Corporation Context-sensitive communication and translation methods for enhanced interactions and understanding among speakers of different languages
CN101361065B (zh) * 2006-02-17 2013-04-10 谷歌公司 分布式模型的编码和自适应、可扩展访问
US20080177528A1 (en) * 2007-01-18 2008-07-24 William Drewes Method of enabling any-directional translation of selected languages

Also Published As

Publication number Publication date
JP2008225191A (ja) 2008-09-25
US8082142B2 (en) 2011-12-20
US20090070102A1 (en) 2009-03-12

Similar Documents

Publication Publication Date Title
JP4466666B2 (ja) 議事録作成方法、その装置及びそのプログラム
JP4466665B2 (ja) 議事録作成方法、その装置及びそのプログラム
US8326596B2 (en) Method and apparatus for translating speech during a call
JP6819988B2 (ja) 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム
KR101211796B1 (ko) 외국어 학습 장치 및 그 제공 방법
US11483273B2 (en) Chat-based interaction with an in-meeting virtual assistant
US11024286B2 (en) Spoken dialog system, spoken dialog device, user terminal, and spoken dialog method, retrieving past dialog for new participant
CN100424632C (zh) 用于高级交互接口的语义对象同步理解
US20120004910A1 (en) System and method for speech processing and speech to text
CN109325091B (zh) 兴趣点属性信息的更新方法、装置、设备及介质
US20110172989A1 (en) Intelligent and parsimonious message engine
US20130073276A1 (en) MT Based Spoken Dialog Systems Customer/Machine Dialog
US20220343914A1 (en) Method and system of generating and transmitting a transcript of verbal communication
US20190121860A1 (en) Conference And Call Center Speech To Text Machine Translation Engine
JP2006050500A (ja) 会議支援システム
CN108881507B (zh) 一种包括语音浏览器和区块链语音dns单元的系统
JP2009122989A (ja) 翻訳装置
CN111554280A (zh) 对利用人工智能的翻译内容和口译专家的口译内容进行混合的实时口译服务系统
CN111968630B (zh) 信息处理方法、装置和电子设备
JP7055327B2 (ja) 会話収集装置、会話収集システム及び会話収集方法
Ansari et al. Multilingual speech to speech translation system in bluetooth environment
JP7205962B1 (ja) 自動対話のためのシステム
KR102248701B1 (ko) 다국어 음성 자동 통역 채팅시 통역의 시점과 종점과 소정 정보 제공을 소정의 음성으로 제어하는 방법
KR20200118744A (ko) 클라우드 기반의 음성 데이터 텍스트 변환 시스템 및 이의 실행 방법
JP2023080132A (ja) 音声チャットボットにおける認識結果の自動学習装置及び方法、並びにコンピュータプログラム及び記録媒体

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080620

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20081224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090107

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100215

R150 Certificate of patent or registration of utility model

Ref document number: 4466666

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140305

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees