JP4678193B2 - 音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム - Google Patents

音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム Download PDF

Info

Publication number
JP4678193B2
JP4678193B2 JP2005023001A JP2005023001A JP4678193B2 JP 4678193 B2 JP4678193 B2 JP 4678193B2 JP 2005023001 A JP2005023001 A JP 2005023001A JP 2005023001 A JP2005023001 A JP 2005023001A JP 4678193 B2 JP4678193 B2 JP 4678193B2
Authority
JP
Japan
Prior art keywords
information
speech
language model
note
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005023001A
Other languages
English (en)
Other versions
JP2005215689A (ja
JP2005215689A5 (ja
Inventor
エル.シオン ジョバンニ
ドゥヌ ローラン
ヘンク ヴァン デン バーグ マーティン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2005215689A publication Critical patent/JP2005215689A/ja
Publication of JP2005215689A5 publication Critical patent/JP2005215689A5/ja
Application granted granted Critical
Publication of JP4678193B2 publication Critical patent/JP4678193B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Description

本発明は、情報源から情報を認識するための方法およびシステムに関し、さらに詳細には、共同ユーザ・ノートを表示する方法およびシステム、情報源から認識されたトークンをランク付けするための方法およびシステム、提案されたミーテイング・ノートを表示するための方法およびシステム、ならびにこれらの方法をコンピュータに実行させるためのコンピュータ・プログラムに関する。
クラスやセミナーの参加者は、ノートを取る作業と提示された教材を理解する作業との間で注意の焦点を切り替えることが多い。クラス参加者は、ノート取りのスタイルによって類別することができる。ノート取りスタイルの第1の例では、参加者は、話者のコメントや提示された教材についての詳細なノートを作成するために情報の取得に集中する。クラス参加者は、後の検討会議時にノートを理解する。後での検討会議時には、通常、詳細でない概略形式のノートが作成される。参加者は教材を理解することよりもノートを取ることに集中するので、参加者がクラスで鋭い質問をすることは少ない。
ノート取りスタイルの第2の例では、参加者は、クラスで、少ないそして/または詳細でないノートを作成する。この詳細でないノート取りスタイルによる参加者は、提示された教材を動的に理解することに注意を集中する。詳細でないノート取りスタイルによる参加者は、クラスで教材をより多く理解できるが、後での検討のために利用できるのは詳細でないノートということになる。
米国特許出願公開第2004/0119762号明細書 米国特許出願公開第2003/0197729号明細書 米国特許出願公開第2003/0088570号明細書
あるミーテイング・キャプチャ・システム(meeting capture systems)では、自動音声認識を利用して話者の音声情報を取得することによって、これらの問題に対処しようとしている。認識されたテキストが、転記ウインドウ(transcription window)で参加者に提示される。これで、その参加者は、プレゼンテーション時に議論されたアイデアや詳細事項をより迅速に取得することができる。例えば、参加者は、後での検討のための文書に認識された音声情報を迅速にコピーするためにカット・アンド・ペースト法および/または他の方法を用いることができる。しかし、これらのノート支援システム(note-assisting system)はプレゼンテーション教材を統合するものではない。さらに、これらのシステムで利用されている従来の自動音声認識は精度が低く、認識エラーが多い。これらの誤認識が、提案された共同ノートしては、認識音声情報の価値を低めている。これらのノート取り環境では、キー用語の誤認識が、ノート取り作業の認識負荷を大きくするとともに、認識されたテキスト情報における認識エラーを訂正することにユーザーの注意の焦点を向けるという誤った方向づけをすることになる。これらの従来の自動音声認識システムによって用いられる一般的な言語モデルの語彙の範囲外にある使用頻度の低い語やフレーズも、認識される文字情報にエラーを生じさせ、ノート取り作業を混乱させることになる。なお、特許文献1には、自由形式のユーザ入力を用いて情報のコピー及びペース操作を行うトシステム及び方法が特許文献1に開示されており、特許文献2には、共同ノート取りシステムのために情報をリアルタイムで収集し、選別し、配布するシステム及び方法が開示されており、さらに特許文献3には、ネットワーク化された又はネットワーク化されていないマルチユーザのドキュメント・デバイスのためのデバイス・ポータルを提供する方法及びシステムが開示されているが、何れにおいても、上記のような問題については認識されていない。
従って、スピーチにおける分野表示(domain indicators)に基づいて言語モデルを動的に判定するシステムおよび方法は有用であろう。信号における分野表示に基づいておよび/または外部の分野表示に基づいて言語モデルのような認識モデルを動的に判定するシステムおよび方法も有用であろう。
請求項1に記載の発明は、話者によるスピーチの音声データを入力する第1の入力手段と、前記スピーチに対応するプレゼンテーション用のスライドまたは話者のノートを入力する第2の入力手段と、前記スライドまたはノートに基づいて、前記スピーチの内容の対象となる分野を表す分野情報を決定する分野情報決定手段と、前記分野情報に基づいて、前記音声データを認識するための言語モデルを決定する認識モデル決定手段と、前記決定された言語モデルを用いて前記入力された前記音声データを認識して認識結果を出力する変換手段と、を備えている。
請求項2に記載の発明は、請求項1に記載の発明において、前記決定された言語モデルを他の言語モデルに変更する指示を入力する第3の入力手段と、前記指示が入力された場合、前記決定された言語モデルを他の言語モデルに変更する変更手段と、を備えている。
請求項3に記載の発明は、話者によるスピーチの音声データを入力する第1の入力手段と、前記スピーチに対応するプレゼンテーション用のスライドまたは話者のノートを入力する第2の入力手段と、前記スライドまたはノートに基づいて、前記スピーチの内容の対象となる分野を表す分野情報を決定する分野情報決定手段と、前記分野情報に基づいて、前記音声データを認識するための言語モデルを決定する認識モデル決定手段と、前記決定された言語モデルを用いて前記入力された前記音声データを認識して認識結果を出力する変換手段と、前記認識結果を構成する複数の部分内で、他の部分より情報を提供する度合いが高い情報高提供部分を抽出する抽出手段と、前記情報高提供部分が前記スライドまたはノートに含まれているか否かを判断する判断手段と、前記情報高提供部分が前記スライドまたはノートに含まれていると判断された場合、前記情報高提供部分に対応する前記認識結果の部分を、ノートとして抽出すると共に、表示手段に当該抽出したノートを表示する制御手段と、を含んでいる。
請求項4に記載の発明は、請求項3に記載の発明において、前記制御手段は、前記認識結果を所定時間毎に分割して認識結果時間部分を生成し、生成された認識結果時間部分に時間的に関連する前記スライドまたはノートの部分である関連時間部分を抽出し、時間的に対応する認識結果時間部分と関連時間部分とを対応して前記表示手段に表示すると共に、時間的に対応する当該認識結果時間部分及び当該関連時間部分に前記情報高提供部分が存在する場合には、当該認識結果時間部分及び当該関連時間部分各々内の前記情報高提供部分を、その表示態様を他の部分の表示態様と異なるように、表示することを特徴とする。
請求項5に記載の発明は、請求項3又は請求項4に記載の発明において、前記決定された言語モデルを他の言語モデルに変更する指示を入力する第3の入力手段と、前記指示が入力された場合、前記決定された言語モデルを他の言語モデルに変更する変更手段と、を備えている。
請求項6に記載の発明の音声データ認識プログラムは、コンピュータを、話者によるスピーチの音声データを入力する第1の入力手段、前記スピーチに対応するプレゼンテーション用のスライドまたは話者のノートを入力する第2の入力手段、前記スライドまたはノートに基づいて、前記スピーチの内容の対象となる分野を表す分野情報を決定する分野情報決定手段、前記分野情報に基づいて、前記音声データを認識するための言語モデルを決定する認識モデル決定手段、及び前記決定された言語モデルを用いて前記入力された前記音声データを認識して認識結果を出力する変換手段として機能させる。
請求項7に記載の音声データ認識プログラムは、請求項6に記載の発明において、前記コンピュータを、前記決定された言語モデルを他の言語モデルに変更する指示を入力する第3の入力手段、及び前記指示が入力された場合、前記決定された言語モデルを他の言語モデルに変更する変更手段として更に機能させる。
請求項8に記載の発明は、コンピュータを、話者によるスピーチの音声データを入力する第1の入力手段、前記スピーチに対応するプレゼンテーション用のスライドまたは話者のノートを入力する第2の入力手段、前記スライドまたはノートに基づいて、前記スピーチの内容の対象となる分野を表す分野情報を決定する分野情報決定手段、前記分野情報に基づいて、前記音声データを認識するための言語モデルを決定する認識モデル決定手段、前記決定された言語モデルを用いて前記入力された前記音声データを認識して認識結果を出力する変換手段、前記認識結果を構成する複数の部分内で、他の部分より情報を提供する度合いが高い情報高提供部分を抽出する抽出手段、前記情報高提供部分が前記スライドまたはノートに含まれているか否かを判断する判断手段、及び前記情報高提供部分が前記スライドまたはノートに含まれていると判断された場合、前記情報高提供部分に対応する前記認識結果の部分を、ノートとして抽出すると共に、表示手段に当該抽出したノートを表示する制御手段として機能させる。
請求項9に記載の発明は、請求項8に記載の発明において、前記制御手段は、前記認識結果を所定時間毎に分割して認識結果時間部分を生成し、生成された認識結果時間部分に時間的に関連する前記スライドまたはノートの部分である関連時間部分を抽出し、時間的に対応する認識結果時間部分と関連時間部分とを対応して前記表示手段に表示すると共に、時間的に対応する当該認識結果時間部分及び当該関連時間部分に前記情報高提供部分が存在する場合には、当該認識結果時間部分及び当該関連時間部分各々内の前記情報高提供部分を、その表示態様を他の部分の表示態様と異なるように、表示することを特徴とする。
請求項10に記載のノート表示プログラムは、請求項8又は請求項9に記載の発明において、前記コンピュータを、前記決定された言語モデルを他の言語モデルに変更する指示を入力する第3の入力手段、及び前記指示が入力された場合、前記決定された言語モデルを他の言語モデルに変更する変更手段として更に機能させる。
図1は、本発明による例示的な共同ノート取りシステム100を利用する場合の概観図である。マイクロホン・アレイ200、環境センサ300、自動音声認識システム400、パソコン500、第1のタブレットパソコン600、第2のタブレットパソコン700がすべて通信回線99を通じて共同ノート取りシステム100に接続されている。
本発明による種々の実施例の1つでは、クラスを提供する話者が識別される。話者識別子は、話者の名前、話者の従業者番号、あるいは話者および共同ノート取りシステムに対するスピーチ情報を一意的に識別できる任意の他の情報を含んでいてもよいが、それらに限定されるものではない。話者識別子は、自動音声認識システム400のための言語モデルに基づいて話者を任意に判定するために使用される。話者に基づいた言語モデルは、話者のアクセント、音律、イントネーション等のような特異なスピーチ特徴を補償するために用いられる。
次に、クラスの分野または主題が判定される。分野情報は、クラスの主題をダイアログボックスまたは他のユーザー・インタフェース入力コンポーネントに入れることによって判定される。他の種々の実施例では、分野情報は、スピーチ情報におけるトピック・キーワードまたは他の顕著なトークン(salient tokens)に基づいている。本発明によるさらに他の実施例では、スピーチ用ノート、プレゼンテーション用スライド、クラス・スケジュール、ロケーション・センサのような外部情報が、分野情報を判定するためおよび/または推定するために用いられうる。
従って、実施例の1つでは、分野情報を判定するために、プレゼンテーション用スライドおよび/または話者のノートの機械可読コピーが用いられる。分野情報が判定されると、分野ベース言語モデルが判定される。次に、複合の話者・分野ベース言語モデルを判定するために、話者言語モデルおよび/または分野言語モデルが任意に組み合わせられる。複合の話者・分野ベース言語モデルは話者のスピーチ特徴とクラスの分野語彙との両方に特有であるから、複合の話者・分野ベース言語モデルは、顕著なスピーチ情報を識別しかつ共同ノートを作成するのに有用である。
本発明による一例では、話者「ジム・スミス」(Jim Smith)の識別は、「ジム・スミス」の発音アクセントでのスピーチ発声を認識するのに適した話者ベース言語モデルを選択するために用いられる。話者識別は、話者の履歴、研究分野、以前のプレゼンテーション等に基づいて初期の分野を推定するためにも用いられうる。推定された分野情報は、分野ベース言語モデルを判定するために用いられる。分野は、通常、動的に判定されることが明らかであろう。従って、付加的な調整および/または新しい分野ベース言語モデルを判定するために、爾後の分野情報を用いることができる。
話者ベース言語モデルおよび/または分野ベース言語モデルが判定された後で、閾顕著性モデル(threshold salience model)に基づいて、スピーチ情報における顕著なトークンが判定される。閾顕著性モデルは、スピーチ情報における非機能語を識別する。本発明による種々の実施例では、顕著性モデルは、語の頻度、頭字語の存在、頭字語の拡張、データ、数字、図、文法性、適格性、品詞、形容詞、動詞、名詞または任意公知のあるいは後で開発された情報提供性の目安に基づいて非機能語を判定する。
次に、プレゼンテーション用スライドおよび/または話者のノートに含まれた情報が判定される。そして、顕著なトークンの関連性と正確性が判定される。本発明による種々の実施例では、関連性情報が、添付のプレゼンテーション用スライド、話者のノート等に対する顕著なトークンの関連性に基づいて判定される。従って、1つの実施例では、認識されたスピーチの各ユニットに対して、幾つかの候補フレーズが判定される。候補トークンの言語分析は、ゼロックス・リングイステイック・エンバイロンメント(Xerox Linguistic Environment)のツール、リビア・ポラニイ外(Livia Polanyi et al.)のユニファイド・リングイステイック・デイスコース・モデル(Unified Linguistic Discourse Model)、あるいは他の任意公知のまたは後で開発された言語ツールを用いて行われる。言語ツールは、統語的、意味的および/または語彙的一貫性に基づいて候補のトークンをランク付けするためのメトリクス(metrics)を与えるために用いられる。プレゼンテーション用スライド、話者のノート、または他のサポート資料に見られる候補のトークンは関連性がより高いと推定される。従って、重複する候補のトークンが、より高い関連性スコアに関連される。
従って、候補の顕著なトークンの部分が現在のプレゼンテーション用スライド、現在の話者のノート、または他のサポート資料に存在する場合には、そのトークンはノート取り作業に対する関連性がより高いと考えられ、より高くランク付けされる。正確性スコアも、各顕著なトークンについて判定される。本発明による種々の実施例の1つでは、正確性スコアは、共同ユーザー・フィードバック情報に基づいて判定される。例えば、大きいグループのユーザーによる候補の顕著なトークンの選択は、それらの顕著なトークンの正確性を推定するために用いることができる。逆に言うと、候補の顕著なトークンの変更、大きなグループのユーザーが候補の顕著なトークンを無視すること、および/または他の行為が、顕著なトークンの正確性がより低いと推定するために用いられる。従って、本発明による実施例の1つでは、顕著なトークンの正確性スコアをより低く調整するために、負の共同フィードバック信号が用いられうる。
本発明による他の種々の実施例では、話者、ミーテイング・ジャンル、提示される主題、あるいはその他のカテゴリに対して、異なるプレゼンテーション・スタイルが判定される。プレゼンテーション・スタイルは、どのように話者が異なるタイプの情報を口頭で提示するかを示す予測モデルである。話者の筆記したプレゼンテーションと関連された対応するプレゼンテーション・スタイルも判定される。次に、話者の筆記したプレゼンテーション・スタイルに基づいた話者の口頭によるプレゼンテーション・スタイルを予測する予測モデルが判定される。
例えば、本発明による種々の実施例の1つでは、話者による筆記プレゼンテーションのトレーニング・コーパス(training corpus)が談話分析の理論に基づいて分析される。次に、談話の構造的表示が筆記プレゼンテーションに対して判定される。談話の構造的表示が束ねられ(clustered)、筆記された談話の例示的構造表示が判定される。各筆記プレゼンテーションを伴うスピーチ情報が判定され、そして口頭での談話の例示的構造表示が同様に判定される。異なる分野、ジャンル、言語および/またはプレゼンテーション情報についての他の公知のあるいは後で開発されたカテゴリに対する話者の例示プレゼンテーション・スタイルを推定するために、談話の筆記された構造表示と口頭での構造表示との比較が用いられる。
従って、1つの例では、第1の話者が、インサイド・アウトのプレゼンテーション・スタイルに関連される。インサイド・アウトのプレゼンテーション・スタイルは、先ずより詳細な点を説明し、次に修辞的な議論をより大きいグループに構築しまたは組み立てることによってプレゼンテーションを開始する。これに対して、第2の話者は、アウトサイド・インのプレゼンテーション・スタイルに関連されうる。アウトサイド・インのプレゼンテーション・スタイルは、先ず大きい点に焦点を合わせ、次に漸次的に詳細になる情報でもって、これらの点に対するサポートを見いだす。
従って、現在のプレゼンテーション・スタイルをプレゼンテーション資料と比較することによって、プレゼンテーション情報の関連性が見込まれる部分が動的に判定される。プレゼンテーション情報の関連性が見込まれる部分の判定は、スピーチ情報の顕著なトークンが比較され得る根拠を与える。次に、顕著なトークンをプレゼンテーション情報の関連性のある部分における語と比較することによって、顕著なトークンの関連性と分野の推移とが判定される。自動音声認識のための分野ベース言語モデルを調整しかつ/または選択するために、分野に対する調整が用いられる。時間的に関連されたコンテキスト情報に基づいて認識タスクを順応的に改善するために本発明が用いられうることが明らかであろう。
次に、共同ノートが判定され、そして共同ノート取りユーザー・インタフェース内のパソコン500、第1のタブレット・パソコン600および第2のタブレット・パソコンのユーザーに表示される。共同ノート取りユーザー・インタフェースが、その共同ノート取りユーザー・インタフェース内のユーザーの行動をモニタする。モニタされた行動が、共同ユーザー・フィードバック信号を判定するために用いられる。次に、その共同ユーザー・フィードバック信号に基づいて、分野ベース言語モデルに対する調整が判定される。共同ユーザー・インタフェース内のユーザの行動をモニタすることは例示にすぎず、本発明を実施する際にユーザー・フィードバック信号を生成するためには、ビデオで捕らえたユーザーのジェスチャー、ユーザーの音声表示あるいは他の任意のユーザーの行動も用いられうることが明らかであろう。
本発明による種々の実施例では、共同ノート取りユーザー・インタフェースが、プレゼンテーション用スライドまたは他のプレゼンテーション情報のプレゼンテーション・ビューを維持する。プレゼンテーション・ビューは、スピーチ情報によって現在記述されているプレゼンテーションの部分と同期される。この同期化は、プレゼンテーション・ノートと、スピーチ情報または任意公知のあるいは後で開発されたメトリック(metric)との間の最大の関連性ついての判定に基づいていてもよい。プレセンテーション・ビューがプレセンテーション情報の所望のビューを含まないとユーザーまたはユーザーのグループが判定した場合には、そのユーザーまたはユーザーのグループは、他のプレセンテーション情報を表示するようにビューを変更することができる。本発明によるさらに他の実施例では、話者に対するプレゼンテーション・スタイルの予測モデルを調整するために、同期化されたビューに対する任意の変更が用いられる。
図2は本発明による共同ノート取り方法の一例を示している。プロセスはステップS100で開始し、直ちに任意のステップS150に進む。ステップS150では、スピーチ情報が判定される。スピーチ情報は、自動音声認識システム等から判定されうる。次に、プロセスは任意のステップS200へと進む。
ステップS200では、話者識別子情報が任意に判定される。話者識別子情報は、クラスを与える話者の氏名、話者に割り当てられた識別番号またはスピーチ情報のソースを話者に関連付ける任意の他の識別子を含んでいてもよいが、それには限定されない。従って、教室のワイヤレス・マイクロホンに関連されたコードで、その教室のワイヤレス・マイクロホンを使用する話者を容易に識別できるようにする。しかし、本発明を実施するに当たっては、話者情報を識別するための任意の方法を使用してもよいことが明らかであろう。
話者識別子情報が判定された後で、コントロールはステップS300へと進む。
クラスまたはセミナーに関連した分野情報がステップS300で判定される。分野情報は、話者による分野情報の明示的エントリに基づいて認定されてもあるいは推定されてもよい。従って、本発明による種々の実施例では、分野情報が、クラススケジュール、会議の議題、あるいは黙示のまたは明示の分野情報の任意の他のソースに基づいて判定される。本発明によるさらに他の実施例では、分野情報が、初期のスピーチ情報における顕著な情報に基づいて判定される。例えば、「Thank you for attending this lecture describing recent advances in proteomics」(「プロテオミクスの最近の進歩に関する講演に出席していただき有難うございます」)というフレーズは、論述の分野を明示的に示している。分野情報が判定された後で、コントロールはステップS400へと進む。
ステップS400において、任意の話者情報および/または分野情報に基づいて、言語モデルが判定される。次に、話者ベース言語モデルが、分野ベース言語モデルと組み合わせられて、複合の話者・分野ベース言語モデルとなる。話者識別子情報を用いることで、特定の言語および/または話者の使用パターンに基づいた言語モデルの選択が可能となる分野ベース言語モデルは、識別された分野に生じやすい語のタイプに対する応答性をシステムが動的に増加させるようにする。言語モデルが判定された後で、コントロールはステップS500へと進む。
顕著なトークンが、ステップS500におけるスピーチ情報における語の情報提供性に基づいて判定される。例えば、本発明による実施例の1つでは、スピーチ情報における非機能語が識別される。その後、各非機能語の情報提供性が、情報提供性メトリックに基づいて判定される。情報提供性メトリックは、語頻度等を含みうるが、それに限定されない。本発明による種々の実施例では、スピーチ情報の頭字語の存在、頭字語の拡張、データ、数字、図、文法性および/または適格性も、情報提供性メトリックとして用いられうる。本発明によるさらに他の実施例では、形容詞、動詞、名詞のような品詞におよび/またはプレゼンテーション・サポート情報に対する参照に基づいた非機能語の分類が、顕著なトークンを判定するために用いられる。しかし、本発明の実施では、スピーチ情報における顕著なトークンを判定する任意公知のまたは後で開発された方法を、単独であるいは組み合わせて用いてもよいことが明らかであろう。スピーチ情報における顕著なトークンが判定された後で、コントロールはステップS600へと進む。
ステップS600では、サポート情報が判定される。サポート情報は、プレゼンテーション用スライドから抽出された情報、話者のノートからの情報、あるいは分野またはトピック情報を識別するのに有用な任意の他の情報源を含みうる。サポート情報が判定された後で、コントロールはステップS700へと進む。
スピーチ情報における顕著なトークンに対する関連性情報と正確性情報がステップS700で判定される。関連性情報は、スピーチ情報とプレゼンテーション情報との同系性に基づいて判定されうる。例えば、本発明による実施例の1つでは、スピーチ情報における顕著なトークンとプレゼンテーション用スライドの関連性のある部分に存在する語との間の意味的関係性の表示を与えるために、ワードネット(WordNet)(登録商標)用語集のクラスが利用される。関連性情報と正確性情報が判定された後で、コントロールはステップS800へと進む。
ステップS800では、スピーチ情報における顕著なトークン、サポート情報、関連性情報および正確性情報に基づいて、共同ノートが判定されかつ表示される。例えば、本発明による種々の実施例の1つでは、スピーチ情報における顕著なトークンとプレゼンテーション情報に基づいて、提案された共同ノートが判定される。すなわち、提案された共同ノートは、顕著なトークンおよび/またはプレゼンテーション情報の部分を含んでいてもよいが、それに限定されない。
共同ノートの複数の部分は、それらの関連性を表示するために、必要に応じて、人間の感知可能な表示特性でハイライトされる。プレゼンテーション情報における語と概念的にまたは文字通りに重複するスピーチ情報のトークンが、必要に応じて、太字でハイライトされ、斜字体で設定され、種々のカラーで表示され、あるいは明滅する特性をもってまたは任意の他の公知のまたは後で開発された人間の感知可能な表示特性を用いて表示される。
矢印、ポインターまたはユーザーの注意を向けるための任意の他の方法も、本発明の範囲から逸脱することなしに、利用できることが明らかであろう。
本発明によるさらに他の実施例では、信頼性スコア、正確性スコア、関連性スコア、ユーザー関心等のうちの1つまたはそれ以上のものの任意の組み合わせに基づいて、人間の感知可能な表示特性が動的に判定される。従って、変化するカラー、フォント、サイズでかつ/またはユーザーの注意を引きつけやすくかつ選択を容易にしやすい任意の他の人間の感知可能な表示特性を用いて、より関連性が高くかつ/またはより関心の高い資料が任意に表示される。さらに、ホットスポットまたは所望の情報を選択するために使用可能な他のユーザー・インタフェース選択要素のサイズを動的に判定するために、関連性、正確性、信頼性等の大きさも任意に用いられる。例えば、パーソナル・デジタル・アシスタント等の小型デイスプレイで共同ユーザーに情報が表示される場合には、過渡的選択期間にその情報を任意にダナミック・ズーミングすることによって、小型デイスプレイを情報で一杯にする。これによって、情報のユーザー選択が容易になる。過渡的選択期間の後では、その情報は通常のサイズで表示される。共同ノートが判定されかつ表示された後で、コントロールはステップS900へと進む。
次に、ステップS900で、共同ユーザー・フィードバック情報が判定される。共同ユーザー・フィードバック情報は、明示的なおよび/または黙示的なフィードバックを含んでいてもよいが、提案された共同ノートの一部分が共同ユーザーによって選択されることに限定されるものではない。本発明による種々の他の実施例では、共同ユーザーは、信頼されたおよび/または模範的なノート取り要員のグループを選択することができる。信頼されたおよび/または模範的なノート取り要員に関連した共同フィードバック情報は、共同ユーザー・インタフェース内の情報をランク付けする場合には、より高いウエイトを与えられる。本発明によるさらに他の実施例では、共同ユーザー・フィードバック情報は、大部分のユーザーの行動に基づいて、ウエイト付けされる。しかし、本発明の範囲から逸脱することなしに、共同ユーザー・フィードバック情報に対する任意公知のまたは後で開発されたウエイト付けを使用できることが明らかであろう。共同ユーザー・フィードバック情報が判定された後で、コントロールはステップS1000へと進む。
ステップS1000では、共同ユーザー・フィードバック情報が言語モデルの調整を必要とするか否かについて判定される。言語モデルの調整が必要と判定された場合には、コントロールはステップS1100へと進む。ステップS1100で、言語モデルが調整され、そしてコントロールはステップS700へと直ちにジャンプする。言語モデルに対する調整がそれ以上は必要でないとの判定がステップS1000でなされるまで、ステップS700−S1100が反復される。言語モデルに対する調整がそれ以上必要でない場合には、コントロールはステップS1200へと進み、そこで、セッションの終了が要求されたか否かの判定がなされる。
ドロップダウンダイアログボックス、ボイスコマンドまたはセッションの終了を表示するための任意の他の公知のまたは後で開発された方法を選択することによって、セッションの終了が要求される。セッションの終了が要求されていないと判定された場合には、コントロールは直ちにステップS150にジャンプする。ユーザーがセッションの終了をしたことがステップS1200で判定されるまで、ステップS150−S1100が反復される。セッションの終了が要求されたと判定された場合には、コントロールはステップS1300へと進み、プロセスが終了する。
図3は本発明の1つの態様による共同ノート取りシステム100を示している。この共同ノート取りシステム100は、メモリ10、プロセッサ15、話者判定回路20、言語モデル判定回路25、顕著なトークン判定回路30、サポート情報判定回路35、関連性スコアおよび/または正確性判定回路40、表示回路45、共同ユーザー・フィードバック判定回路50、言語モデル調整回路55、分野判定回路60で構成されており、それぞれ入力/出力回路5に接続されている。入力/出力回路5は、第1のタブレット・パソコン600、第2のタブレットパソコン700、マイクロホンアレイ200、環境センサアレイ300、自動音声認識システム400および共同ノート取りシステム100に通信回線99を通じて接続されている。
クラスまたはセミナー時に、スピーチ情報がマイクロホンアレイ200によってとらえられる。マイクロホンアレイは、話者を識別するためにスピーチ処理方法を使用しうる。しかし、本発明を実施する場合には、小型マイクロホン、タグ式ワイヤレスマイクロホン、高周波識別タグ式マイクロホン、あるいは自動音声認識システムに対して話者を識別するのに有用な任意の他のタイプのマイクロホンも使用できる。自動音声認識システムは、スピーチ情報を認識して、任意に話者を識別されたスピーチ情報を共同ノート取りシステム100に通信回線99を通じて送信する。
プロセッサ15が入力/出力回路5を動作させて、自動音声認識システム400から任意に話者を識別されたスピーチ情報を受信する。話者判定回路20が動作されて、スピーチ情報に関連した話者を判定する。本発明による種々の実施例の1つでは、各話者は登録処理によってシステムに明示的に識別される。本発明による他の実施例では、黙示的な話者識別は、話者に関連した音声特性の認識、タグ式マイクロホン、ビデオ識別、RFIDタグ、および/または任意公知のあるいは後で開発されたスピーチ情報のソースを判定する方法に基づく。
次に、プロセッサ15が分野判定回路60を動作させて、スピーチ情報に関連した分野またはトピックを判定する。分野情報は、明示的および/黙示的表示に基づいて判定されうる。例えば、クラス論議の分野を明示的に識別するためには、話者登録システムからのタイトル情報、クラス・スケジュール、または任意公知のまたは後で開発された情報ソースを用いることができる。本発明による他の実施例では、クラスルーム・スケジュールが、クラスの分野を判定するために用いられる。分野情報は、話者によってなされる紹介の言葉に基づいて黙示的に判定される。例えば、「Today we will be discussing topic A」(「今日は、トピックAについて述べます」)というフレーズまたは「Welcome to our class on topic B」(「トピックBについての私たちのクラスへようこそ」)というフレーズあるいはその両方が、認識可能な談話構造を形成する。クラスに対する論議分野を判定するために、認識可能な談話構造における情報提供性非機能語が用いられる。
スピーチ情報の関連コンテキストを自動的に判定するために、分野情報が用いられる。すなわち、分野の動的判定に基づいて、特定の分野ベース言語モデルが選択されかつ/または調整される。動的分野判定は、スピーチ情報に基づいていてもよく、かつ/またはプレゼンテーション用スライド、クラス設定、分野情報等の明示的なエントリーのような外部表示に任意に基礎づけられうる。分野ベース言語モデルは、分野に対する共同ノートを判定するのに有用なスピーチ情報における顕著なトークンをより正確に識別する。
次に、プロセッサ15は言語モデル判定回路25を動作させる。言語モデル判定回路25は、自動音声認識システム400によって使用されるべき言語モデルを判定する。本発明による種々の実施例の1つでは、話者ベース言語モデルと分野ベース言語モデルとが組み合わせられて、複合の話者・分野ベース言語モデルとなされる。しかし、上述のように、話者言語モデルと分野言語モデルは、本発明の範囲から逸脱することなしに、スピーチ情報に個別にまたは独立に適用されうる。
顕著なトークン判定回路30が次に動作され、スピーチ情報における顕著なトークンを判定する。種々の実施例において、スピーチ情報における顕著なトークンは、非機能語に基づいて判定される。より情報提供性の高い非機能語が顕著なトークンとして選択される。非機能語の情報提供性は、品詞のような情報提供性のメトリックに基づいて判定される。
次に、サポート情報判定回路35が動作されて、スピーチ情報に文脈的にかつ時間的に関係づけられたプレゼンテーション・サポート情報を判定する。例えば、プレゼンテーション用スライド上の論点や話者のノート等のような視覚資料によって、多くのプレゼンテーションが案内される。本発明による実施例の1つでは、プレゼンテーションサポート情報判定回路35は、話者の現在の論点の基礎をなすプレゼンテーションサポート情報の部分を判定するために、メモリ10から取り出されたプレゼンテーションスタイルの予測モデルを使用する。次に、関連スピーチ情報における顕著なトークンが、プレゼンテーションサポート情報の予測された部分と比較される。プレゼンテーションサポート情報とスピーチ情報とで共有される語および/または概念の数および/またはタイプが、スピーチ情報に対する現在の分野の関連性を判定するために用いられる。
関連性/正確性判定回路40が次に動作され、スピーチ・トークンの関連性および正確性を判定する。すなわち、プレゼンテーション情報または外部表示との文字どおりのおよび/または概念上の重複の度合いに基づいて、第1の組の候補トークンが第2の組のトークンよりも関連性が高いことを示すために、関連性情報を用いることができる。本発明による他の実施例では、話者識別、分野情報および/またはモニタされた共同ユーザー・フィードバック情報の明示的および/または黙示的表示を判定するために環境センサを用いることができる。
関連性/正確性回路によって判定された正確性情報は、候補のトークンが正しい可能性を示す。実施例の1つでは、正確性が環境センサに基づいて示されている。環境センサは、共同ユーザー・フィードバック情報をモニタするセンサを含んでいてもよいが、それに限定されない。共同ユーザー・フィードバック・センサは、スピーチ情報、提示された共同ノート、プレゼンテーションの一部分、あるいは共同ノート取りユーザー・インタフェースの任意の他の要素に関するユーザーの行動を判定する。環境センサは、正または負の共同ユーザー・フィードバック信号を判定するために用いられうることが明らかであろう。例えば、1つの実施例では、ユーザー正確性または提示された共同ノートおよび/または顕著なトークンの修正に基づいて、負の共同ユーザー・フィードバック信号が生成される。次に、顕著なトークンに関連した正確性値を調整するために、共同ユーザー・フィードバック信号が用いられる。共同ユーザー・フィードバック・センサは、ジェスチャー認識を行い、ユーザーの身振り、顔の表情、あるいは正確性を判定するのに有用な任意の他の特徴または動作をモニタする。
次に、プロセッサ15が動作して、顕著なトークン、スピーチ情報およびサポート情報に基づいて、提案された共同ノートを判定し、第1のタブレットパソコン600と第2のタブレットパソコン700のユーザーに表示する。本発明による種々の実施例では、スピーチ情報、サポート情報、および/または共同ノートが、文法のハイブリッドおよび/またはキーワード・サマリー・ジェネレータ、ビデオ・シーン認識および/または他の変換を適用することによって、さらに変換される。
共同ユーザー・フィードバック判定回路50が動作され、顕著なトークンおよび/または共同ノート取りインタフェースで表示される提示された共同ノートの要素に対する共同ユーザー・フィードバック・レスポンスを判定する。言語モデル調整回路55が動作され、話者ベースおよび/または分野ベース言語モデルに対する必要な調整を判定する。話者ベースおよび/または分野ベース言語モデルに対する調整は、分野の判定された変化、共同ユーザー・フィードバック信号、環境センサ、および/またはサポート情報に、単独でまたは組み合わせで、基づいている。
図4は、本発明の1つの態様による顕著なトークンを判定する例示的な方法である。コントロールはステップS500で開始し、直ちにステップS510へと進む。ステップS510では、スピーチ情報が判定される。本発明による種々の実施例では、スピーチ情報が自動音声認識システムによって認識される。本発明によるさらに他の実施例では、自動音声認識システムが、共同ノート取りシステム内に組み込まれうる。認識されたスピーチ情報が判定された後で、コントロールはステップS520へと進む。
ステップS520では、スピーチ情報に関連した分野情報が判定される。通常は、分野情報は前もって判定されて、メモリにセーブされ、ステップS520で、そのメモリから情報が取り出される。しかし、分野情報はまた、ユーザーからの明示的な表示、スピーチ情報から得られた黙示的な情報に基づいてあるいは任意の他の方法に基づいて、ステップS520で、動的に判定される。分野情報が判定された後で、コントロールはステップS530へと進む。
ステップS530において、機能語が判定される。機能語はフレーズまたはセンテンス内に含まれている、より情報提供性が低くかつ分野特定性が低い語である。さらに、機能語は、得られたフレーズやセンテンスの情報提供性に大きな影響を及ぼすことなしに
省略できる語である。機能語が判定された後で、コントロールはステップS540へと進む。
ステップS540では、非機能語が判定される。本発明による種々の実施例において、非機能語は、センテンスまたはフレーズ内の語から機能語を除去することによって判定される。得られた語および/またはフレーズの組は、より情報提供性の高い非機能語である。非機能語が判定された後で、コントロールはステップS550へと進む。
ステップS550では、候補の顕著なトークンが、情報提供性の他のメトリックに基づいて判定される。情報提供性のメトリックは、語の頻度と頭字語の存在を含むが、それに限定されない。頭字語の展開内における非機能語の存在、および/または候補の顕著なトークン内のデータ、数字、図の存在も、それらの顕著性を推定しかつ/または判定するために用いることができる。品詞分類、文法性、適格性、および/または任意の他の情報提供性も、顕著なトークンを判定するために用いることができる。本発明による種々の実施例の1つでは、認識されたスピーチ情報における形容詞がサポート資料を参照しやすい。同様に、「DNA」のような頭字語、数字のような特定のデータ、および/または図面の参照も、情報提供性がより高くなりやすい。頭字語の展開も、プレゼンテーションの分野および/またはトピックに対して情報提供性がより高くなりやすい。候補トークンの情報提供性が判定された後で、コントロールはステップS560へと進む。その後で、コントロールは直ちに図2のステップS600へと戻される。
図5は本発明の1つの態様によるスピーチ情報の関連性と正確性を判定する例示的な方法である。プロセスはステップS700で開始し、直ちにステップS710へと進む。
ステップS710では、候補トークンが、語彙的、意味的および統語的情報に基づいて判定される。例えば、本発明による種々の実施例では、品詞タッガー(part-of-speech tagger)、語彙的パーサー(lexical parser)および/または語および/またはフレーズの重要性を判定するのに有用な言語ツールが、重要なトークンを判定するために用いられる。そのトークンが判定された後で、コントロールはステップS710へと進む。
ステップS710では、品詞、統語的、語彙的および意味的情報が、スピーチにおける顕著なトークンを判定するために用いられる。例えば、修正語句として識別される品詞は、分野に関連しやすい。同様に、プレゼンテーションサポート情報の参照は、分野関連性を判定するための既知の根拠とのつながりを与える。顕著なトークンが判定された後で、コントロールはステップS710へと進む。
情報スライドから来た情報、および/または共同ユーザーの活動を含む、任意の他の文脈的に関連しかつ時間的に同期化されたサポート情報のチャンネルが、ステップS720で顕著なトークンの関連性スコアを評価するために用いられる。スピーチ発話は種々の代替的な認識フレーズを生成しやすい。従って、外部の時間的に同期された情報、共同ユーザー活動情報、あるいは分野関連性を判定するのに有用な任意の他の公知のまたは後で開発された外部情報との文字的および/または意味的重複を含むがそれに限定されない種々の関連性メトリックに基づいて、多数のフレーズのそれぞれに対して判定される。
スピーチ発話に関連した付加的な代替フレーズにも、関連性スコアが割り当てられる。プレゼンテーション情報に対してより大きい文脈的または文字的関係性を有する代替フレーズには、より高い関連性スコアが割り当てられる。本発明による種々の他の実施例では、共同ユーザー・フィードバック信号は、関連性スコアを調整するためにも用いられうる。トークンの選択および/または変換、提案されたノートの選択等のような正の共同ユーザー・フィードバック信号が、関連性判定を補強するために用いられる。同様に、負の共同ユーザー・フィードバック信号は、予測モデルを保持するためにも用いられうる。従って、より頻繁に選択される代替フレーズには、より高い関連性スコアが割り当てられる。それらのフレーズに対する関連性スコアが判定された後で、コントロールはステップS730へと進む。
ステップS730では、プレゼンテーション情報およびフィードバック情報に基づいて、トークンに対する正確性スコアが判定される。例えば、1つのトークンに関連した正確性スコアは、多数の共同ユーザーが彼らのプライベート・ノートに顕著なトークンを追加したことを示す共同ユーザー・フィードバック情報に基づいて、増加されうる。トークンの適格性は、正確性の表示としても用いられうる。トークンの文法性およびユーザーによって既に採用された以前のトークンに対する関連的な一貫性も、正確性スコアを調整するために用いることができる。従って、ゼロックス・リングイステイック・エンバイロンメント(XLE)による処理に基づいたメトリック、ユニファイド・リングイステイック・デイスコース・モデル(Unified Linguistic Discourse Model)によって識別された特徴、または任意の他の組の言語ツールが、正確性の目安を判定するために用いられうる。正確性の言語的目安が実施例の1つに記述されているが、本発明の実施では、顕著なトークンの正確性の任意のメトリックも用いられうることに注目すべきである。トークンの正確性スコアが判定された後で、コントロールはステップS740へと進み、そして直ちに図2のステップS800に戻る。
図6は、本発明の1つの態様による、候補の顕著なトークン情報を格納するための例示的なデータ構造800を示している。候補の顕著なトークン情報800を格納するための例示的なデータ構造は、トークン情報部分810、信頼性スコア部分820、正確性スコア部分830、および関連性スコア部分840で構成されている。
候補トークンを格納するための例示的なデータ構造800の最初の行は、トークン情報部分810に「This diagram on the wall is the key to our understanding」(「壁上のこの図表が我々の理解のための鍵である」)という値を含んでいる。トークン情報は、スピーチ発話に関連したありうる内容を表している。トークン情報は、共同ノートの一部または全部として、共同ノート取りユーザー・インタフェース内に任意に表示される。
信頼性スコアは値「0.08」を含んでいる。値「0.08」はスピーチ発話を正確に表す。信頼性部分820は自動音声認識システムから得られてもよく、あるいは共同ノート取りシステム100から直接判定されてもよい。
正確性スコア部分830は値「0.99」を含んでいる。この正確性スコア部分830の「0.99」値は、指定されたトークンがスピーチ情報を正確に示している可能性を示している。本発明による種々の実施例では、正確性スコアの値は、ゼロックス・リングイステイック・エンバイロンメント(XLE)で提供されるツールのような言語的文解析ツールおよび/または上述したリングイステイック・デイスコース・モデルによって提供される談話一貫性の目安に基づいて判定される。しかし、本発明の実施では、正確性スコアを判定するための任意の方法を使用できることが明らかであろう。従って、本発明によるさらに他の実施例では、投票メトリクス(voting metrics)等に基づいて正確性スコアを判定するために、共同ユーザー・フィードバック信号が用いられる。あるいは、正確性スコア部分830における値は、プレゼンテーション・サポート情報の該当部分とスピーチ情報との間の類似性に基づいて判定される。さらに他の実施例では、トークンまたはフレーズの適格性は、トークン情報の正確性の明示的表示を提供するためにも使用される。
関連性スコア部分840は、値「0.99」を含んでいる。この値「0.99」は、トークン情報が関連性の高いことを示している。本発明による種々の実施例の1つでは、関連性スコア部分840における値は、トークン情報とプレゼンテーション情報との間の類似性のメトリックに基づいている。本発明によるさらに他の実施例では、類似性メトリックスが、トークン情報とプレゼンテーション情報との間の意味的関連性の度合いに基づいて判定される。
候補の顕著なトークン情報を格納するための例示的なデータ構造の2番目の行は、トークン情報部分810に、「The diet on the walk is the key to hour understanding」(「歩道上のダイエットは時間理解のための鍵である」)という値を含んでいる。この値は、第2のまたは代替のフレーズまたはセンテンスを表している。
信頼性部分820は、トークン情報における信頼性を示す値「0.08」を含んでいる。上述のように、信頼性情報は、音声認識システムによって提供される信頼性情報から判定されうるか、あるいは共同ノート取りシステムによって直接判定されうる。
正確性部分830は値「0.05」を含んでいる。この値は、トークン情報が正しい可能性があることを示している。本発明による種々の実施例では、ユニファイド・リングイステイック・デイスコース・モデル、ゼロックス・リングイステイック・エンバイロンメントおよび/または任意の他の言語分析の間の一貫性の意味的、統語的および/または他の目安が、正確性の目安として用いられうる。例えば、文法的に正しいそして/または適格なセンテンスは、意味的に正しい可能性がより高い。本発明による他の実施例では、先に判定されたおよび/または採用されたトークンに対する言語的連続性が、トークンの正確性のメトリックとして使用されうる。この場合には、「on the walk」(「歩道上の」)というフレーズが、「the diet」(「ダイエット」)というフレーズを正しく言及する可能性はありそうにない。同様に、フレーズ「hour understanding」(「時間理解」)は、フレーズ「the diet」またはフレーズ「on the walk」の何れとも関係づけるのは難しい。従って、このフレーズに対する正確性の言語ベースのメトリックは低く、このような不正な候補トークンに対する正確性値も従って低い。この場合には、「0.05」という値は、トークンがスピーチ情報を正しく表すことはありそうにないないことを示す。
関連性スコア部分840は値「0.04」を含んでいる。この値は、プレゼンテーション情報とトークン情報との間の重複の度合いを示す。この「0.04」という値は、2つの情報スコアの間に概念的重複が殆ど無いことを示す。従って、共同ノート取り環境では、トークン情報部分810における情報は、関連性があるとされる可能性がありそうである。
図7は本発明の1つの態様による例示的な共同ノート取りユーザー・インタフェース900を示している。この例示的な共同ノート取りユーザー・インタフェース900は、プレゼンテーション・サポート領域910、スピーチ領域920、およびノート領域930とで構成されている。本発明による種々の実施例の1つでは、プレゼンテーション・サポート領域910は、個別の第1、第2および第3部分911−913で構成されている。プレゼンテーション・サポート領域910の第1、第2および第3部分911−913は、時間間隔t1、t2およびt3に関連されている。プレゼンテーション・サポート領域910の第1、第2および第3部分911−913に含まれている情報は、クラスまたはセミナーで表示されるプレゼンテーション・サポート資料を示している。従って、話者のサポート情報が、機械読取可能な形式に変換するための公知のまたは後で開発された方法が存在する任意の形式でアクセス可能である場合には、特定の時間間隔の間に提示された話者のサポート情報が、プレゼンテーション・サポート領域910に表示される。サポート情報の表示は、サポート情報の任意公知のまたは後で開発された変換の出力でありうることが明らかであろう。例えば、レッスンのサポートで示されるビデオが、描写されたビデオ・シーンの最も顕著なフレームおよび/または自然言語記述によって表されるように取得され、そしてユーザーに提示されうる。プレゼンテーション・サポート領域910の第1、第2および第3部分911−913は、本発明の範囲から逸脱することなく、サイズを固定されていてもよく、あるいはサイズを変化するようにしてもよいことも明らかであろう。
例示的な共同ノート取りユーザー・インタフェース900のスピーチ領域920は、第1、第2および第3部分921−923で構成されている。本発明による種々の実施例の1つでは、スピーチ領域920の第1、第2および第3部分921−923に表示されている情報は、スピーチ情報における顕著なトークンを示す。本発明によるさらに他の実施例では、顕著なトークンの交互の列が、それらの発生の可能性に基づいて順序付けまたはランク付けされうる。発生の可能性は、信頼性、正確性、関連性および/または任意の他の特徴に基づきうる。
スピーチ情報の実際の情報内容を示す候補の顕著なトークンの可能性は、候補の顕著なトークンとプレゼンテーション情報の関連部分との動的に判定された関連性またはグラウンド・トルース(ground truth)の任意の他の外部目安ならびに正確性の動的判定に基づいて判定される。例えば、スピーチ領域920の第1部分921は、第1の顕著なトークン情報「We have observed the cross over applicability of techniques for determining DNA structure」(「我々はDNA構造を判定するための技術が交差的に適用可能であることを認めた」)を含んでいる。第1の顕著なトークンにおける「cross over」という用語は、太字表示特性を用いて表示されている。カラー、フォント、イタリック等を含むがそれに限定されない任意のタイプの表示特性を用いることができる。さらに、ボリューム、強度、および他の適当な表示特性が、触覚表示、聴覚表示等と一緒に用いられうる。太字表示特性は、プレゼンテーション領域910の第1部分911の対応する太字領域との意味的関連を示す。同様に、スピーチ領域920における「determining DNA structure」という用語と「cross over」という用語は両方ともプレゼンテーション領域910にも見出される。関連性のメトリックは、文字的重複に限定されるものではなく、現在の分野に対する根拠を判定するのに有用な言語的関連性の任意の目安に基づいていてもよいことが明らかであろう。
スピーチ領域920の第2部分922は、2つの候補の顕著なトークンを含んでいる。「structure」という用語は、プレゼンテーション領域910の第2部分912にける情報をスピーチ領域920の第2部分922における顕著なトークンと関連付ける概念的重複を提供する。次に、スピーチ領域920における情報が、顕著なトークンの全体のランクを判定するために、関連性、正確性および任意の信頼性スコアに基づいてランク付けされる。次に、顕著なトークンが、分野ベース言語モデルを動的に選択しかつ/または調整するための特徴として使用されうる。さらに他の実施例では、共同ユーザー・フィードバック信号を判定するために、共同ユーザーの行動がモニタされる。従って、行動するユーザーの大部分が第1の候補の顕著なトークンを選択すれば、正の共同ユーザー・フィードバック信号が判定される。正の共同ユーザー・フィードバック信号は、第1の顕著なトークンを、選択されるべき最も可能性の高い顕著なトークンとして正しくランク付けした予測モデルを任意に補強する。負の共同ユーザー・フィードバック信号も使用されうる。共同ユーザー・フィードバック信号は、分野予測モデルをさらに訓練しかつ/または改善するためにも使用されうる。
スピーチ領域920の第3部分922は、「Please be sure to stop by our booth after the meeting to sing up for this years July 15 Aspen conference」(今年7月15日のアスペン会議にサインアップするために、このミーテイングの後で我々のブースにぜひお立ち寄りください。)というフレーズを含んでいる。「July 15」と「Aspen」という用語は、プレゼンテーション領域910の第3部分913における情報と逐語的に重複している。「this years」という用語は、用語「2004」とフレーズ「this years」の間に存在する意味的関連性を示すために、アンダーライン表示特徴をもって表示される。
スピーチ領域920の第3部分923における第1の候補の顕著なトークンには斜線が付けられている。これは、候補のフレーズがユーザーによって共同ノートとして選択されたことを示す。変換セレクタ941−943は、共同ノートを生成するために、選択された候補フレーズに適用されうる付加的な任意の操作に関連している。従って、文法的要約セレクタ941は、任意の選択されたテキストの文法的要約を判定する。同様に、ハイブリッド・セレクタ942およびキーワード・セレクタ943は、選択されたテキストのハイブリッドおよびキーワード要約を生成する。本発明の実施では、共同ノートを生成するのに有用な任意公知のまたは後で開発された言語変換も使用できる。スピーチ領域920に表示された情報に対するユーザーの行動が、共同ノート取りシステムに共同ユーザー・フィードバック信号を提供する。分野ベース言語モデルを訓練するためおよび/または適合させるために、共同ユーザー・フィードバック信号が任意に用いられる。
例示的な共同ノート取りユーザー・インタフェース900は、提案された顕著なトークン951のコピーを含んでいる。顕著なトークン951の文法的要約も示されている。顕著なトークン951のアンダーラインを付けられた部分は、文法的要約で省略された部分を示す。提案された顕著なトークンにおけるイタリックで示された部分「after the meeting」は、文法的要約952では「later」に変換されている。
丁寧部分「please be sure to」は省略されている。相対的な時間的表示「this years July 15」は、絶対的な日付「July 15, 2004」に変換されている。これは、ノートがアーカイブされ後年に閲覧される場合に、読み易さを確保するのを助ける。最後に、「conference」(会議)が「conf.」と略語化されている。略語は、特定の研究分野、ユーザーのグループ、個々のユーザー、あるいは任意の他の公知のまたは後で開発されたグループ化に基づきうることが明らかであろう。
図8は、本発明による例示的な共同ノート取りユーザー・インタフェース900の第2の態様を示している。ユーザーは、スピーチ領域の第1部分921に強調された情報を有する。スピーチ領域920の第1部分921は時間t1と関連している。しかし、プレゼンテーションおよびスピーチ領域の第3部分が表示されているから、現在の時間は少なくともt3である。共同ユーザー・ノート取りインタフェースが関連情報の各流れのコンテキストを時間マップで保存するので、より早い顕著なトークンおよびプレゼンテーション・サポート情報に対して、より遅い時間t3においてさえ、共同ユーザー・フィードバック信号を生成するために、ユーザーの正または負の行動が、依然として利用可能である。
図9は、本発明の第1の態様による、プレゼンテーション・スタイル情報を格納するための第1の例示的なデータ構造である。プレゼンテーション・スタイル情報を格納するための例示的なデータ構造1000は、話者識別子部分1010、プレゼンテーション・スタイル部分1020、および任意の記述部分1030で構成されている。
話者識別子部分1010は、共同ノート取りシステムに対する話者を一意的に識別する。プレゼンテーション・スタイル部分1020は、プレゼンテーション情報における話者の例示的な流れを特定する。記述部分1030は、判定された典型的流れを記述する。例示的なプレゼンテーション・スタイルは、話者を識別されたプレゼンテーション資料のラベル付きトレーニング・コーパスの分析に基づいて判定されうる。
プレゼンテーション・スタイル情報を格納するための例示的なデータ構造の最初の行は、話者識別子部分1010に値「11」を含んでいる。この値は、システムに対する話者を一意的に識別する。プレゼンテーション・スタイル部分1020は、記述部分1030に値「1」と値「アウトサイド・イン(OUTSIDE-IN)」を含んでいる。これらの値は、話者「11」が外側で開始しかつ内方に作用するプレゼンテーション・スタイルと関連されていることを示す。
2番目の行は、話者識別子部分1010に値「13」を含んでいる。プレゼンテーション・スタイル部分1030における値「2」と記述部分1030における値「インサイド・アウト(INSIDE-OUT)」は、話者「13」がタイプ「2」プレゼンテーション・スタイルと関連されていることを示す。タイプ「2」プレゼンテーション・スタイルは、スピーキング・ノートの内側における詳細なプレゼンテーション資料から始まり、より一般的なポイントを目指す。
3番目の行は、話者識別子部分1010に値「25」を含んでいる。プレゼンテーション・スタイル部分1020における値「2」と記述部分1030における値「インサイド・アウト(INSIDE-OUT)」は、話者「25」がタイプ「2」プレゼンテーション・スタイルと関連していることを示す。上述のように、タイプ「2」プレゼンテーション・スタイルは、スピーキング・ノートの内側における詳細なプレゼンテーション資料から始まり、より一般的なポイントを目指す。
4番目の行は、話者識別子部分1010に値「30」を含んでいる。プレゼンテーション・スタイル部分1020における値「1」と記述部分1030における値「アウトサイド・イン(OUTSIDE-IN)」は、話者「30」がタイプ「1」プレゼンテーション・スタイルに関連していることを示す。タイプ「1」プレゼンテーション・スタイルは、スピーキング・ノートまたはサポート資料の外側で開始し、そして内方に作用する傾向がある。
図10は、本発明の他の態様による、プレゼンテーション・スタイル情報を格納するための第2の例示的なデータ構造である。プレゼンテーション・スタイル情報を格納するための、この第2のデータ構造1100は、話者識別子部分1010、筆記プレゼンテーション・スタイル部分1110、および口頭プレゼンテーション・スタイル部分1120で構成されている。
話者識別子部分1010は、話者を一意的に識別する識別子を含んでいる。筆記プレゼンテーション・スタイル部分1110は、このタイプのプレゼンテーション・サポート資料における話者の例示的なまたは予測された流れを記述する情報を含んでいる。従って、例えば、筆記されたプレゼンテーション・サポート資料は、プレゼンテーション用スライド、話者のノート、および/または分野情報を識別するのに有用な機械読取可能サポート情報を含んでいてもよい。
口頭プレゼンテーション・スタイル部分1120は、話者がクラスを提供する際に使用しそうな口頭プレゼンテーションのスタイルを記述する情報を含んでいる。従って、異なる口頭プレゼンテーション・スタイルが、同じ話者に対する異なる筆記プレゼンテーション・スタイルに関連されうる。例えば、「ヘッデイングス」(headings)の口頭プレゼンテーション・スタイルは、「解説1」の筆記プレゼンテーション・スタイルと関連されている。これは、プレゼンテーション・サポート資料がタイプ「解説1」であると判定された場合には、話者は「ヘッデイングス」として識別されたスタイルでそれらを提示しそうであることを示す。筆記資料および口頭資料と関連された談話の構造的表示における差異と類似の分類に基づいて、筆記プレゼンテーション・スタイルと口頭プレゼンテーション・スタイルが識別されうることが明らかであろう。従って、プレゼンテーション・サポート資料における流れと口頭プレゼンテーションにおける実際の流れ特徴づけるために、談話分析の理論が用いられる。特徴が判定され、そして論述されそうなプレゼンテーション資料の次の部分を予測する予測モデルが、筆記プレゼンテーションにおける話者の現在の位置の基づいて判定される。
すなわち、プレゼンテーション資料内のどちらのポイントを話者が次に提示しそうかを予測するモデルが判定される。次に、プレゼンテーションにおける現在の分野および/または副分野を表す顕著な語を動的に識別するために、この予測語が用いられる。認識されたスピーチと識別された分野との間の関連性の判定が、関連する分野ベース言語モデルを判定するためおよび/または調整するために用いられる。
図11は本発明による共同ノート取りユーザー・インタフェースの第2の実施例を示している。スピーチ部分920の第3部分923は、第1および第2の候補トークンを含んでいる。第1の候補トークンは第1の選択領域961に関連されている。本発明による実施例の1つでは、第1の選択領域961は、第1の候補トークンに関連した関連性、正確性および/または信頼性スコアに基づいてサイズを決められる。
第2の候補トークンは、第2の動的に判定された選択領域962と共に表示される。第2の選択領域962は第2の候補トークンと関連され、かつ第2の候補トークンに対応した関連性スコア、正確性スコアおよび/または信頼性スコアに基づいている。従って、第2の選択領域962は第1の選択領域961とはサイズが異なる。第1の選択領域961のほうがサイズが大きいので、より高い関連性スコア、正確性スコアおよび/信頼性スコアに関連した候補トークンをユーザーが選択する可能性が高くなる。
図12は、本発明による共同ノート取りユーザー・インタフェースの第2の実施例を示している。第1の候補トークンは、過渡的にズームまたは拡大された表示領域964で表示される。この過渡的にズームされた表示領域964は、正確であるかつ/または関連性のある可能性のより高い候補トークンをユーザーが選択するのを容易にする。本発明による種々の実施例において、この過渡的にズームされる表示領域964は数秒間だけ表示される。しかし、他の実施例では、過渡的にズームされた表示と通常の表示とを切り替えるために、ズーム選択モードまたはモードを切り替えるための他の方法が用いられる。
図3で説明された共同ノート取りシステム100の回路10−60のそれぞれは、適切にプログラムされた汎用コンピュータの部分として実施されうる。あるいは、上述した共同ノート取りシステム100は、ASIC内の、あるいはFPGA、PDL、PLAまたはPALを用いた、あるいは個別論理素子または個別回路素子を用いた物理的に異なるハードウエア回路として実施されうる。上記共同ノート取りシステム100の各回路が取る特定の形態は設計上の選択であり、当業者には明白でありかつ実施可能であろう。
さらに、共同ノート取りシステム100および/または上述した種々の回路のそれぞれは、プログラムされた汎用コンピュータ、専用コンピュータ、マイクロプロセッサ等で実行するソフトウエア・ルーチン、マネージャまたはオブジェクトとしてそれぞれ実施されうる。この場合、共同ノート取りシステム100および/または上述した種々の回路のそれぞれは、サーバー上に存在するソース等として通信ネットワーク内に組み込まれた1つまたはそれ以上のルーチンとしてそれぞれ実施されうる。共同ノート取りシステム100および上述した種々の回路はまた、ウエブ・サーバーまたはクライアント・デバイスのハードウエアおよびソフトウエア・システムのようなソフトウエアおよび/またはハードウエア・システムに共同ノート取りシステム100を物理的に組み込むことによっても実施されうる。
図3に示されているように、メモリ10は、可変メモリ、揮発性または不揮発性メモリ、あるいは非可変すなわち固定メモリの任意適切な組み合わせを用いて実施されうる。可変メモリは、揮発性または不揮発性に関係なく、静的または動的RAM、フロッピー(登録商標)デイスクおよびデイスクドライブ、書き込み型または書き替え型光デイスクおよびデイスクドライブ、ハードドライブ、フラッシュメモリ等のうちの1つまたはそれ以上を用いて実施されうる。同様に、非可変または固定メモリは、ROM、PROM、EPROM、EEPROM、CD−ROMまたはDVD−ROMのようなROM、およびデイスクドライブ等のうちの1つまたはそれ以上を用いて実施されうる。
図1および3に示された通信回線99はそれぞれ、直接ケーブル接続、ワイドエリアネットワークまたはローカルエリアネットワークによる接続、イントラネットによる接続、インターネットによる接続、あるいは任意他の分散処理ネットワークまたはシステムによる接続を含む、共同ノート取りシステム100に通信装置を接続するための任意公知のまたは後で開発された装置またはシステムでありうる。一般に、通信回線99は、装置を接続しかつ通信を容易にするために使用可能な任意公知のまたは後で開発された接続システムまたは構造でありうる。
さらに、通信回線99は、ネットワークに対する有線または無線のリンクでありうることが理解されるであろう。そのネットワークは、ローカルエリアネットワーク、ワイドエリアネットワーク、イントラネット、インターネット、あるいは任意他の分散処理および格納ネットワークでありうる。
本発明を上述の実施例に関して説明したが、多くの代替案、修正および変更が問う業者には明らかとらんであろうことは明白である。従って、上述した本発明の実施例は、例示のためのものであり、限定するものではない。本発明の精神および範囲から逸脱することなしに、種々の変更が可能であろう。
本発明による共同ノート取りシステムの一例を使用する場合の概観図である。 本発明による共同ノート取り方法の一例を示す図である。 本発明の1つの態様による共同ノート取りシステムの一例を示す図である。 本発明の1つの態様による、顕著なトークンを判定する方法の一例を示す図である。 本発明の1つの態様による音声情報の妥当性と正確性を判定する方法の一例を示す図である。 本発明の1つの態様により、候補の顕著表彰情報を格納するためのデータ構造の一例を示す図である。 本発明の1つの態様による共同ノート取りユーザー・インタフェースの一例を示す図である。 本発明による共同ノート取りユーザー・インタフェースの第2の態様を示す図である。 本発明の1つの態様による、プレゼンテーション・スタイル情報を格納するためのデータ構造の第1の例を示す図である。 本発明の他の態様による、プレゼンテーション・スタイル情報を格納するためのデータ構造の第2の例を示す図である。 本発明による共同ユーザー・インタフェースの第2の実施例を示す図である。 本発明による共同ノート取りユーザー・インタフェースの第2の実施例を示す図である。
符号の説明
5 入力/出力回路
10 メモリ
15 プロセッサ
20 話者判定回路
25 言語モデル判定回路
30 顕著なトークン判定回路
35 サポート情報判定回路
40 関連性/正確性判定回路
50 共同ユーザ・フィードバック判定回路
55 言語モデル調節回路
60 分野判定回路
100 共同ノート取りシステム
200 マイクロホンアレイ
300 環境センサ
400 自動音声認識システム
100 共同ノート取りシステム
200 マイクロホンアレイ
300 環境センサ
400 自動音声認識システム

Claims (10)

  1. 話者によるスピーチの音声データを入力する第1の入力手段と、
    前記スピーチに対応するプレゼンテーション用のスライドまたは話者のノートを入力する第2の入力手段と、
    前記スライドまたはノートに基づいて、前記スピーチの内容の対象となる分野を表す分野情報を決定する分野情報決定手段と、
    前記分野情報に基づいて、前記音声データを認識するための言語モデルを決定する認識モデル決定手段と、
    前記決定された言語モデルを用いて前記入力された前記音声データを認識して認識結果を出力する変換手段と、
    を備えた音声データ認識装置。
  2. 前記決定された言語モデルを他の言語モデルに変更する指示を入力する第3の入力手段と、
    前記指示が入力された場合、前記決定された言語モデルを他の言語モデルに変更する変更手段と、
    を備えた請求項1に記載の音声データ認識装置。
  3. 話者によるスピーチの音声データを入力する第1の入力手段と、
    前記スピーチに対応するプレゼンテーション用のスライドまたは話者のノートを入力する第2の入力手段と、
    前記スライドまたはノートに基づいて、前記スピーチの内容の対象となる分野を表す分野情報を決定する分野情報決定手段と、
    前記分野情報に基づいて、前記音声データを認識するための言語モデルを決定する認識モデル決定手段と、
    前記決定された言語モデルを用いて前記入力された前記音声データを認識して認識結果を出力する変換手段と、
    前記認識結果を構成する複数の部分内で、他の部分より情報を提供する度合いが高い情報高提供部分を抽出する抽出手段と、
    前記情報高提供部分が前記スライドまたはノートに含まれているか否かを判断する判断手段と、
    前記情報高提供部分が前記スライドまたはノートに含まれていると判断された場合、前記情報高提供部分に対応する前記認識結果の部分を、ノートとして抽出すると共に、表示手段に当該抽出したノートを表示する制御手段と、
    を含むノート表示装置。
  4. 前記制御手段は、
    前記認識結果を所定時間毎に分割して認識結果時間部分を生成し、生成された認識結果時間部分に時間的に関連する前記スライドまたはノートの部分である関連時間部分を抽出し、時間的に対応する認識結果時間部分と関連時間部分とを対応して前記表示手段に表示すると共に、
    時間的に対応する当該認識結果時間部分及び当該関連時間部分に前記情報高提供部分が存在する場合には、当該認識結果時間部分及び当該関連時間部分各々内の前記情報高提供部分を、その表示態様を他の部分の表示態様と異なるように、表示する、
    ことを特徴とする請求項3に記載のノート表示装置。
  5. 前記決定された言語モデルを他の言語モデルに変更する指示を入力する第3の入力手段と、
    前記指示が入力された場合、前記決定された言語モデルを他の言語モデルに変更する変更手段と、
    を備えた請求項3又は請求項4に記載のノート表示装置。
  6. コンピュータを、
    話者によるスピーチの音声データを入力する第1の入力手段、
    前記スピーチに対応するプレゼンテーション用のスライドまたは話者のノートを入力する第2の入力手段、
    前記スライドまたはノートに基づいて、前記スピーチの内容の対象となる分野を表す分野情報を決定する分野情報決定手段、
    前記分野情報に基づいて、前記音声データを認識するための言語モデルを決定する認識モデル決定手段、及び
    前記決定された言語モデルを用いて前記入力された前記音声データを認識して認識結果を出力する変換手段
    として機能させる音声データ認識プログラム。
  7. 前記コンピュータを、
    前記決定された言語モデルを他の言語モデルに変更する指示を入力する第3の入力手段、及び
    前記指示が入力された場合、前記決定された言語モデルを他の言語モデルに変更する変更手段
    として更に機能させる請求項6に記載の音声データ認識プログラム。
  8. コンピュータを、
    話者によるスピーチの音声データを入力する第1の入力手段、
    前記スピーチに対応するプレゼンテーション用のスライドまたは話者のノートを入力する第2の入力手段、
    前記スライドまたはノートに基づいて、前記スピーチの内容の対象となる分野を表す分野情報を決定する分野情報決定手段、
    前記分野情報に基づいて、前記音声データを認識するための言語モデルを決定する認識モデル決定手段、
    前記決定された言語モデルを用いて前記入力された前記音声データを認識して認識結果を出力する変換手段、
    前記認識結果を構成する複数の部分内で、他の部分より情報を提供する度合いが高い情報高提供部分を抽出する抽出手段、
    前記情報高提供部分が前記スライドまたはノートに含まれているか否かを判断する判断手段、及び
    前記情報高提供部分が前記スライドまたはノートに含まれていると判断された場合、前記情報高提供部分に対応する前記認識結果の部分を、ノートとして抽出すると共に、表示手段に当該抽出したノートを表示する制御手段
    として機能させるノート表示プログラム。
  9. 前記制御手段は、
    前記認識結果を所定時間毎に分割して認識結果時間部分を生成し、生成された認識結果時間部分に時間的に関連する前記スライドまたはノートの部分である関連時間部分を抽出し、時間的に対応する認識結果時間部分と関連時間部分とを対応して前記表示手段に表示すると共に、
    時間的に対応する当該認識結果時間部分及び当該関連時間部分に前記情報高提供部分が存在する場合には、当該認識結果時間部分及び当該関連時間部分各々内の前記情報高提供部分を、その表示態様を他の部分の表示態様と異なるように、表示する、
    ことを特徴とする請求項8に記載のノート表示プログラム。
  10. 前記コンピュータを、
    前記決定された言語モデルを他の言語モデルに変更する指示を入力する第3の入力手段、及び
    前記指示が入力された場合、前記決定された言語モデルを他の言語モデルに変更する変更手段
    として更に機能させる請求項8又は請求項9に記載のノート表示プログラム。
JP2005023001A 2004-02-02 2005-01-31 音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム Expired - Fee Related JP4678193B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/768,675 US7542971B2 (en) 2004-02-02 2004-02-02 Systems and methods for collaborative note-taking

Publications (3)

Publication Number Publication Date
JP2005215689A JP2005215689A (ja) 2005-08-11
JP2005215689A5 JP2005215689A5 (ja) 2008-03-06
JP4678193B2 true JP4678193B2 (ja) 2011-04-27

Family

ID=34807932

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005023001A Expired - Fee Related JP4678193B2 (ja) 2004-02-02 2005-01-31 音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム

Country Status (2)

Country Link
US (2) US7542971B2 (ja)
JP (1) JP4678193B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Families Citing this family (216)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7970833B2 (en) * 2003-06-02 2011-06-28 Seiko Epson Corporation Image capture method, system and apparatus
US7542903B2 (en) * 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US20050187772A1 (en) * 2004-02-25 2005-08-25 Fuji Xerox Co., Ltd. Systems and methods for synthesizing speech using discourse function level prosodic features
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US20060282265A1 (en) * 2005-06-10 2006-12-14 Steve Grobman Methods and apparatus to perform enhanced speech to text processing
US8924212B1 (en) * 2005-08-26 2014-12-30 At&T Intellectual Property Ii, L.P. System and method for robust access and entry to large structured data using voice form-filling
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US20070162481A1 (en) * 2006-01-10 2007-07-12 Millett Ronald P Pattern index
US8176052B2 (en) * 2006-03-03 2012-05-08 Perfect Search Corporation Hyperspace index
US8266152B2 (en) * 2006-03-03 2012-09-11 Perfect Search Corporation Hashed indexing
US7881534B2 (en) 2006-06-19 2011-02-01 Microsoft Corporation Collecting and utilizing user correction feedback to improve handwriting recognition
US8560314B2 (en) * 2006-06-22 2013-10-15 Multimodal Technologies, Llc Applying service levels to transcripts
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4215792B2 (ja) * 2006-09-22 2009-01-28 株式会社東芝 会議支援装置、会議支援方法および会議支援プログラム
US8214208B2 (en) * 2006-09-28 2012-07-03 Reqall, Inc. Method and system for sharing portable voice profiles
JP2008084110A (ja) * 2006-09-28 2008-04-10 Toshiba Corp 情報表示装置、情報表示方法及び情報表示プログラム
US8631005B2 (en) 2006-12-28 2014-01-14 Ebay Inc. Header-token driven automatic text segmentation
US8055648B2 (en) * 2007-02-01 2011-11-08 The Invention Science Fund I, Llc Managing information related to communication
US8626731B2 (en) * 2007-02-01 2014-01-07 The Invention Science Fund I, Llc Component information and auxiliary information related to information management
US20080270761A1 (en) * 2007-04-30 2008-10-30 Microsoft Corporation Techniques to generate event contexts for recurring events
US7912840B2 (en) * 2007-08-30 2011-03-22 Perfect Search Corporation Indexing and filtering using composite data stores
US7774347B2 (en) * 2007-08-30 2010-08-10 Perfect Search Corporation Vortex searching
US7774353B2 (en) * 2007-08-30 2010-08-10 Perfect Search Corporation Search templates
WO2009051791A2 (en) * 2007-10-16 2009-04-23 George Alex K Method and system for capturing voice files and rendering them searchable by keyword or phrase
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8032495B2 (en) * 2008-06-20 2011-10-04 Perfect Search Corporation Index compression
JP2010008601A (ja) * 2008-06-25 2010-01-14 Fujitsu Ltd 案内情報表示装置、案内情報表示方法及びプログラム
US8818801B2 (en) * 2008-07-28 2014-08-26 Nec Corporation Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
CA2680304C (en) * 2008-09-25 2017-08-22 Multimodal Technologies, Inc. Decoding-time prediction of non-verbalized tokens
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9129601B2 (en) * 2008-11-26 2015-09-08 At&T Intellectual Property I, L.P. System and method for dialog modeling
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP5257330B2 (ja) * 2009-11-06 2013-08-07 株式会社リコー 発言記録装置、発言記録方法、プログラム及び記録媒体
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8302010B2 (en) * 2010-03-29 2012-10-30 Avid Technology, Inc. Transcript editor
US9236047B2 (en) * 2010-05-21 2016-01-12 Microsoft Technology Licensing, Llc Voice stream augmented note taking
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US8738375B2 (en) 2011-05-09 2014-05-27 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US9396725B2 (en) 2011-05-09 2016-07-19 At&T Intellectual Property I, L.P. System and method for optimizing speech recognition and natural language parameters with user feedback
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
JP5799733B2 (ja) * 2011-10-12 2015-10-28 富士通株式会社 認識装置、認識プログラムおよび認識方法
KR20130045471A (ko) * 2011-10-26 2013-05-06 삼성전자주식회사 전자장치 및 그 제어방법
US9107012B2 (en) 2011-12-01 2015-08-11 Elwha Llc Vehicular threat detection based on audio signals
US10875525B2 (en) 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US9053096B2 (en) 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US9064152B2 (en) 2011-12-01 2015-06-23 Elwha Llc Vehicular threat detection based on image analysis
US9368028B2 (en) 2011-12-01 2016-06-14 Microsoft Technology Licensing, Llc Determining threats based on information from road-based devices in a transportation-related context
US9245254B2 (en) * 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US8934652B2 (en) 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US8811638B2 (en) 2011-12-01 2014-08-19 Elwha Llc Audible assistance
US9159236B2 (en) 2011-12-01 2015-10-13 Elwha Llc Presentation of shared threat information in a transportation-related context
KR101749143B1 (ko) * 2011-12-26 2017-06-20 인텔 코포레이션 탑승자 오디오 및 시각적 입력의 차량 기반 결정
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9542449B2 (en) * 2012-04-09 2017-01-10 Search For Yeti, LLC Collaboration and analysis system for disparate information sources
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) * 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US20130317988A1 (en) * 2012-05-28 2013-11-28 Ian A. R. Boyd Payment and account management system using pictooverlay technology
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US10008125B2 (en) 2013-01-03 2018-06-26 East Carolina University Methods, systems, and devices for multi-user treatment for improvement of reading comprehension using frequency altered feedback
USD716375S1 (en) 2013-01-03 2014-10-28 East Carolina University Multi-user reading comprehension therapy device
KR102516577B1 (ko) 2013-02-07 2023-04-03 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10311743B2 (en) 2013-04-08 2019-06-04 Educational Testing Service Systems and methods for providing a multi-modal evaluation of a presentation
US20140350933A1 (en) * 2013-05-24 2014-11-27 Samsung Electronics Co., Ltd. Voice recognition apparatus and control method thereof
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10109273B1 (en) * 2013-08-29 2018-10-23 Amazon Technologies, Inc. Efficient generation of personalized spoken language understanding models
KR20150028627A (ko) * 2013-09-06 2015-03-16 삼성전자주식회사 사용자 필기를 텍스트 정보로 변환하는 방법 및 이를 수행하기 위한 전자 기기
RU2605039C2 (ru) * 2013-10-02 2016-12-20 Общество С Ограниченной Ответственностью "Яндекс" Способ и система ранжирования элементов сетевого ресурса для пользователя
US10199035B2 (en) * 2013-11-22 2019-02-05 Nuance Communications, Inc. Multi-channel speech recognition
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
US9626961B2 (en) 2014-01-31 2017-04-18 Vivint, Inc. Systems and methods for personifying communications
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9652675B2 (en) * 2014-07-23 2017-05-16 Microsoft Technology Licensing, Llc Identifying presentation styles of educational videos
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9910644B2 (en) * 2015-03-03 2018-03-06 Microsoft Technology Licensing, Llc Integrated note-taking functionality for computing system entities
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9910840B2 (en) 2015-04-03 2018-03-06 Microsoft Technology Licensing, Llc Annotating notes from passive recording with categories
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
DE102015212413A1 (de) * 2015-07-02 2017-01-05 Volkswagen Aktiengesellschaft Verfahren und Vorrichtung zum Auswählen eines Bestandteils einer Spracheingabe
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
CN105304082B (zh) * 2015-09-08 2018-12-28 北京云知声信息技术有限公司 一种语音输出方法及装置
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
KR102474244B1 (ko) * 2015-11-20 2022-12-06 삼성전자주식회사 영상 표시 장치 및 그 동작방법
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10121474B2 (en) 2016-02-17 2018-11-06 Microsoft Technology Licensing, Llc Contextual note taking
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US11200217B2 (en) 2016-05-26 2021-12-14 Perfect Search Corporation Structured document indexing and searching
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN112802459A (zh) * 2017-05-23 2021-05-14 创新先进技术有限公司 一种基于语音识别的咨询业务处理方法及装置
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10891800B1 (en) 2017-09-29 2021-01-12 Apple Inc. Providing features of an electronic product in an augmented reality environment
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US20190129591A1 (en) * 2017-10-26 2019-05-02 International Business Machines Corporation Dynamic system and method for content and topic based synchronization during presentations
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10740555B2 (en) * 2017-12-07 2020-08-11 International Business Machines Corporation Deep learning approach to grammatical correction for incomplete parses
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
KR102225984B1 (ko) 2018-09-03 2021-03-10 엘지전자 주식회사 음성 인식 서비스를 제공하는 서버
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11270104B2 (en) 2020-01-13 2022-03-08 Apple Inc. Spatial and temporal sequence-to-sequence modeling for handwriting recognition
US11011253B1 (en) 2020-07-09 2021-05-18 Brian Hie Escape profiling for therapeutic and vaccine development
US11522730B2 (en) 2020-10-05 2022-12-06 International Business Machines Corporation Customized meeting notes
US20220334693A1 (en) 2021-04-19 2022-10-20 Apple Inc. User interfaces for managing visual content in media
US11696017B2 (en) * 2021-05-19 2023-07-04 Apple Inc. User interface for managing audible descriptions for visual media
US20230267933A1 (en) * 2021-09-27 2023-08-24 International Business Machines Corporation Selective inclusion of speech content in documents

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069482A (ja) * 1996-08-29 1998-03-10 Atr Chinou Eizo Tsushin Kenkyusho:Kk 話題処理装置
JP2001013992A (ja) * 1999-07-02 2001-01-19 Nec Corp 音声理解装置
JP2001154693A (ja) * 1999-11-30 2001-06-08 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2001215994A (ja) * 2000-01-31 2001-08-10 Matsushita Electric Ind Co Ltd 音声認識住所検索装置と車載ナビゲーション装置
JP2001256335A (ja) * 2000-03-08 2001-09-21 Ricoh Co Ltd 会議記録システム
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2003280683A (ja) * 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5655058A (en) * 1994-04-12 1997-08-05 Xerox Corporation Segmentation of audio data for indexing of conversational speech for real-time or postprocessing applications
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
JP2000231627A (ja) * 1998-12-22 2000-08-22 Xerox Corp フィードバック機構を備えた複数モード走査ペン及びこれを用いた入力方法
US6774917B1 (en) * 1999-03-11 2004-08-10 Fuji Xerox Co., Ltd. Methods and apparatuses for interactive similarity searching, retrieval, and browsing of video
US6594629B1 (en) * 1999-08-06 2003-07-15 International Business Machines Corporation Methods and apparatus for audio-visual speech detection and recognition
US6434547B1 (en) * 1999-10-28 2002-08-13 Qenm.Com Data capture and verification system
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
MXPA02006579A (es) * 1999-12-29 2003-04-10 Ge Transp Systems Global Signa Modelo de actuacion de una estacion de ferrocarriles basado en modelaje de flujo de tareas.
US20010029455A1 (en) * 2000-03-31 2001-10-11 Chin Jeffrey J. Method and apparatus for providing multilingual translation over a network
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US6961692B1 (en) 2000-08-01 2005-11-01 Fuji Xerox Co, Ltd. System and method for writing analysis using the linguistic discourse model
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US20030088570A1 (en) 2001-11-05 2003-05-08 Fuji Xerox Co., Ltd. Systems and methods for operating a multi-user document device via a personal device portal
US7680820B2 (en) 2002-04-19 2010-03-16 Fuji Xerox Co., Ltd. Systems and methods for displaying text recommendations during collaborative note taking
US20040133342A1 (en) * 2002-12-20 2004-07-08 Banker Shailen V Linked information system
US20040119762A1 (en) 2002-12-24 2004-06-24 Fuji Xerox Co., Ltd. Systems and methods for freeform pasting
US7836409B2 (en) * 2003-09-26 2010-11-16 Fuji Xerox Co., Ltd. Systems and methods for using interaction information to deform representations of digital content
US7610190B2 (en) 2003-10-15 2009-10-27 Fuji Xerox Co., Ltd. Systems and methods for hybrid text summarization

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069482A (ja) * 1996-08-29 1998-03-10 Atr Chinou Eizo Tsushin Kenkyusho:Kk 話題処理装置
JP2001013992A (ja) * 1999-07-02 2001-01-19 Nec Corp 音声理解装置
JP2001154693A (ja) * 1999-11-30 2001-06-08 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2001215994A (ja) * 2000-01-31 2001-08-10 Matsushita Electric Ind Co Ltd 音声認識住所検索装置と車載ナビゲーション装置
JP2001256335A (ja) * 2000-03-08 2001-09-21 Ricoh Co Ltd 会議記録システム
JP2003255979A (ja) * 2002-03-06 2003-09-10 Nippon Telegr & Teleph Corp <Ntt> データ編集方法、データ編集装置、データ編集プログラム
JP2003280683A (ja) * 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Also Published As

Publication number Publication date
US20090204620A1 (en) 2009-08-13
US20050171926A1 (en) 2005-08-04
JP2005215689A (ja) 2005-08-11
US7542971B2 (en) 2009-06-02

Similar Documents

Publication Publication Date Title
JP4678193B2 (ja) 音声データ認識装置、ノート表示装置、音声データ認識プログラム、及びノート表示プログラム
US7149690B2 (en) Method and apparatus for interactive language instruction
US20180061256A1 (en) Automated digital media content extraction for digital lesson generation
US6397185B1 (en) Language independent suprasegmental pronunciation tutoring system and methods
US8109765B2 (en) Intelligent tutoring feedback
US9548052B2 (en) Ebook interaction using speech recognition
Cole et al. Crowd-sourcing prosodic annotation
US20040067472A1 (en) Systems and methods for dynamic reading fluency instruction and improvement
EP1473707B1 (en) Text-to-speech conversion system and method having function of providing additional information
US20110213610A1 (en) Processor Implemented Systems and Methods for Measuring Syntactic Complexity on Spontaneous Non-Native Speech Data by Using Structural Event Detection
Tomokiyo Recognizing non-native speech: characterizing and adapting to non-native usage in LVCSR
Delgado et al. Spoken, multilingual and multimodal dialogue systems: development and assessment
Wald Creating accessible educational multimedia through editing automatic speech recognition captioning in real time
Lacheret et al. Prominence perception and accent detection in French: from phonetic processing to grammatical analysis
US6760408B2 (en) Systems and methods for providing a user-friendly computing environment for the hearing impaired
Skidmore Incremental disfluency detection for spoken learner english
EP1475776B1 (en) Dynamic pronunciation support for speech recognition training
EP0982684A1 (en) Moving picture generating device and image control network learning device
Hempel Usability of speech dialog systems: listening to the target audience
Lopes et al. Multimedia learning materials
Zhou Modeling statistics ITAs’ speaking performances in a certification test
Möller Quality of Spoken Dialog Systems
Asadi Speech-Based Real-Time Presentation Tracking Using Semantic Matching
CN113452871A (zh) 用于从视频自动生成课程的系统和方法
Ren et al. Semantic analysis for a speech user interface in an intelligent tutoring system

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080122

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110118

R150 Certificate of patent or registration of utility model

Ref document number: 4678193

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 3

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees