JP6810363B2 - 情報処理装置、情報処理システム、および情報処理プログラム - Google Patents

情報処理装置、情報処理システム、および情報処理プログラム Download PDF

Info

Publication number
JP6810363B2
JP6810363B2 JP2019011654A JP2019011654A JP6810363B2 JP 6810363 B2 JP6810363 B2 JP 6810363B2 JP 2019011654 A JP2019011654 A JP 2019011654A JP 2019011654 A JP2019011654 A JP 2019011654A JP 6810363 B2 JP6810363 B2 JP 6810363B2
Authority
JP
Japan
Prior art keywords
unit
information processing
frequency
appearance
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019011654A
Other languages
English (en)
Other versions
JP2020118910A (ja
Inventor
靖士 藪内
靖士 藪内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Client Computing Ltd
Original Assignee
Fujitsu Client Computing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Client Computing Ltd filed Critical Fujitsu Client Computing Ltd
Priority to JP2019011654A priority Critical patent/JP6810363B2/ja
Priority to US16/720,232 priority patent/US20200243092A1/en
Publication of JP2020118910A publication Critical patent/JP2020118910A/ja
Application granted granted Critical
Publication of JP6810363B2 publication Critical patent/JP6810363B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Description

本発明の実施の形態は、情報処理装置、情報処理システム、および情報処理プログラムに関する。
音声を認識し文字列に変換する技術が知られている。例えば音響モデルを用いて音声を音素に分解し、辞書などを用いて音素を解析することで、音声を文字列に変換する技術が開示されている(例えば、特許文献1参照)。
特開2003−323189号公報
音声認識を行う場面では、場面特有の専門用語または造語が用いられる場合がある。しかし、従来技術では、辞書に未登録の用語や造語を音声認識することは困難であり、誤認識が発生する場合があった。
そこで、本発明の課題の一つは、音声認識精度向上を図ることである。
本発明の第1態様にかかる情報処理装置は、予め定めた場面で用いられる原稿に含まれるテキストデータを構成する1または複数の形態素を取得する取得部と、前記形態素の音節を音素に変換し、発音辞書に登録する登録部と、テキストデータに含まれる複数の形態素の各々の、テキストデータ中の出現頻度を特定する特定部と、複数種類の単語列の各々のテキストデータ中の出現確率を規定した言語モデルに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、を備える。
また、上記情報処理装置は、前記テキストデータに含まれる複数の前記形態素の各々の、前記テキストデータ中の出現頻度を特定する特定部と、複数種類の単語列の各々の前記テキストデータ中の出現確率を規定した言語モデルに含まれる、前記出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、を備える。
また、上記情報処理装置の前記更新部は、前記出現頻度が前記基準頻度より大きいほど、前記言語モデルに含まれる、該出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、基準出現確率より高い値に更新し、前記出現頻度が前記基準頻度より小さいほど、前記言語モデルに含まれる、該出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、前記基準出現確率より低い値に更新する。
また、上記情報処理装置の前記更新部は、所定条件を満たした場合、前記言語モデルに含まれる前記出現確率を前記基準出現確率に更新する。
また、上記情報処理装置は、音声データを受付ける受付部と、前記音声データを1または複数の音素に分解する分解部と、1または複数の前記音素を、前記発音辞書および前記言語モデルを用いて解析し、前記音声データを文字列に変換する変換部と、を備える。
また、本発明の第2態様にかかる情報処理システムは、情報処理装置と、前記情報処理装置と通信する端末装置と、を備えた情報処理システムであって、前記情報処理装置は、前記端末装置で生成された予め定めた場面で用いられる原稿に含まれる、テキストデータを構成する1または複数の形態素を取得する取得部と、前記形態素の音節を音素に変換し、発音辞書に登録する登録部と、テキストデータに含まれる複数の形態素の各々の、テキストデータ中の出現頻度を特定する特定部と、複数種類の単語列の各々のテキストデータ中の出現確率を規定した言語モデルに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、を備える。
また、本発明の第3態様にかかる情報処理プログラムは、予め定めた場面で用いられる原稿に含まれるテキストデータを構成する1または複数の形態素を取得するステップと、前記形態素の音節を音素に変換し、発音辞書に登録するステップと、テキストデータに含まれる複数の形態素の各々の、テキストデータ中の出現頻度を特定するステップと、複数種類の単語列の各々のテキストデータ中の出現確率を規定した言語モデルに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、該出現頻度と基準頻度との差に基づいて更新するステップと、をコンピュータに実行させるための情報処理プログラムである。
本発明の上記態様によれば、音声認識精度向上を図ることができる。
図1は、実施の形態の情報処理システムの一例を示す模式図である。 図2は、実施の形態の情報処理装置および端末装置の機能ブロック図である。 図3は、実施の形態の発音辞書のデータ構成の一例を示す模式図である。 図4は、実施の形態の言語モデルのデータ構成の一例を示す模式図である。 図5は、実施の形態の認識結果DBのデータ構成の一例を示す模式図である。 図6は、実施の形態の出力画面の一例を示す模式図である。 図7は、実施の形態の発音辞書への登録および言語モデルの更新の流れの一例を示すシーケンス図である。 図8は、実施の形態の情報処理システムで実行される音声認識の流れの一例を示すシーケンス図である。 図9は、情報処理装置および端末装置のハードウェア構成図である。
以下、本開示の例示的な実施の形態を開示する。なお、以下に示される実施の形態の構成、ならびに当該構成によってもたらされる作用および効果は、一例である。また、以下の実施の形態は開示の技術を限定するものではない。
図1は、本実施の形態の情報処理システム1の一例を示す模式図である。
情報処理システム1は、情報処理装置10と、端末装置12と、を備える。情報処理装置10と端末装置12とは、ネットワークNを介して通信可能に接続されている。
ネットワークNは、公知の通信網である。ネットワークNは、例えば、インターネットや、携帯電話網、などである。ネットワークNは、例えば、ケーブル、トランシーバー、ルーター、スイッチ、無線LANアクセスポイント、または無線LAN送受信機、などによって実現される。
端末装置12は、操作者Uによって操作される端末である。操作者Uは、ユーザの一例である。端末装置12は、例えば、パーソナルコンピュータ、またはタブレット端末、などである。端末装置12は、端末装置12を操作する操作者Uの音声を集音し、音声データを情報処理装置10へ送信する。
本実施の形態では、情報処理システム1は、複数の端末装置12(端末装置12A〜端末装置12C)を有する。複数の端末装置12の各々は、互いに異なる操作者Uによって操作される。例えば、端末装置12Aは操作者U“A”によって操作され、端末装置12Bは操作者U“B”によって操作され、端末装置12Cは操作者U“C”によって操作される。
情報処理装置10は、端末装置12から受付けた音声データを音声認識し、文字列を出力する(詳細後述)。本実施の形態では、文字列とは、文字列を表すデータである。情報処理装置10は、例えば、パーソナルコンピュータである。
なお、図1には、情報処理システム1が1台の情報処理装置10と、3台の端末装置12と、を備えた構成である場合を一例として示した。しかし、情報処理システム1に含まれる情報処理装置10の台数は、1台に限定されない。情報処理システム1は、2台以上の情報処理装置10を備えた構成であってもよい。また、情報処理システム1は、1台、2台、または4台以上の端末装置12を備えた構成であってもよい。
本実施の形態の情報処理システム1は、1または複数の操作者Uが発話する場面に適用される。
場面とは、1または複数の操作者Uが原稿に基づいて発話する場面である。場面は、例えば、会議、講義、会合、インタビュー、スピーチ、などの場面である。本実施の形態では、場面が、会議である場合を一例として説明する。なお、場面において発話するユーザは、操作者Uに限定されない。例えば、端末装置12の操作者U以外のユーザが発話してもよい。
原稿とは、会議などの場面で用いられる資料である。原稿には、テキスト(文字)が含まれる。原稿は、用紙やボードなどの媒体、および、電子化された原稿データ、の少なくとも一方である。原稿は、操作者Uなどによって作成される(詳細後述)。
場面では、1または複数の操作者Uが、原稿に示されるテキストを読んで音声を発話する行為などにより、会議などが進行する。そして、場面で発話された音声データが端末装置12によって集音され、情報処理装置10で音声認識される(詳細後述)。
本実施の形態では、予め定めた場面で原稿に基づいた発話が行われる前に、情報処理装置10が、音声認識に用いる発音辞書への登録および言語モデルの更新などの処理を行う(詳細後述)。そして、その後、会議などの場面において、この会議で用いる原稿に基づいて1または複数の操作者Uが発話した音声を、情報処理装置10で音声認識する形態を想定して説明する。
次に、情報処理装置10および端末装置12の機能的構成を説明する。図2は、情報処理装置10および端末装置12の機能ブロック図の一例である。
まず、端末装置12について説明する。端末装置12は、制御部20と、音声入力部22と、UI(ユーザ・インターフェース)部24と、記憶部26と、通信部28と、を備える。音声入力部22、UI部24、記憶部26、および通信部28と、制御部20とは、データまたは信号を授受可能に接続されている。
音声入力部22は、操作者Uの音声を集音し、音声データを制御部20へ出力する。音声入力部22は、マイクロフォンである。
UI部24は、操作者Uからの操作指示を受付ける入力機能と、画像を表示する表示機能と、を備える。入力機能は、例えば、キーボード、マウス、などである。表示機能は、例えば、液晶表示装置や、有機EL(エレクトロルミネッセンス)ディスプレイなどである。UI部24は、入力機能と表示機能を一体に備えたタッチパネルであってもよい。
記憶部26は、各種の情報を記憶する。記憶部26は、HDD(ハードディスクドライブ)などの公知の記憶媒体である。なお、記憶部26を、ネットワークNを介して接続された外部装置に設けてもよい。
通信部28は、情報処理装置10と通信するための通信インターフェースである。
制御部20は、取得部20Aと、通信制御部20Bと、出力制御部20Cと、を含む。
上記各部は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
取得部20Aは、音声入力部22から音声データを取得する。また、取得部20Aは、予め定めた場面で用いられる原稿に含まれるテキストデータを取得する。
例えば、操作者Uは、端末装置12の入力部24Bを操作することで、会議で用いる原稿データを生成する。端末装置12の制御部20は、入力部24Bを介して操作者Uの入力操作を受付けると、予めインストールされたアプリケーション等を用いて原稿データを生成し、記憶部26へ記憶する。アプリケーションは、文書生成用の公知のアプリケーションであればよい。文書作成用の公知のアプリケーションは、例えば、Microsoft Officeに含まれるソフトウェア(ワープロソフト(Word)、表計算ソフト(Excell)、プレゼンテーション用ソフト(PowerPoint))であるが、これに限定されない。
また、制御部20は、文字の記載された媒体を公知のスキャナ装置などによって読取ることで原稿データを取得し、記憶部26へ記憶してもよい。また、制御部20は、ネットワークNを介して外部装置などから原稿データを読取ることで、原稿データを取得し、記憶部26へ記憶してもよい。
取得部20Aは、記憶部26から原稿データを読取る。そして、取得部20Aは、原稿データに含まれる文字(テキスト)のデータを公知の方法で抽出することで、テキストデータを取得する。
例えば、原稿データがスキャナ装置によって読取ることで取得されたデータであると想定する。この場合、取得部20Aは、原稿データを公知の文字認識技術を用いて解析することで、テキストデータを取得する。また、例えば、原稿データが、制御部20に予めインストールされた公知の文書作成用のアプリケーションを用いて生成されたと想定する。この場合、取得部20Aは、原稿データに含まれるテキストデータを公知の方法で抽出することで、テキストデータを取得する。テキストデータの抽出には、例えば、公知のテキスト抽出プログラム(例えば、xdoc2txtなど)、または、Outlookなどの公知のアプリケーション等に付与されたプレビュー機能などを用いればよい。
通信制御部20Bは、情報処理装置10との通信を制御する。
取得部20Aが、原稿に含まれるテキストデータを取得した場合、通信制御部20Bは、テキストデータを情報処理装置10へ送信する。
一方、取得部20Aが音声データを取得した場合、通信制御部20Bは、音声データおよび端末装置12の端末識別情報を、通信部28を介して情報処理装置10へ送信する。
端末識別情報は、端末装置12を識別可能な情報である。本実施の形態では、端末識別情報は、端末装置12を操作する操作者Uの識別情報である場合を、一例として説明する。操作者Uの識別情報は、例えば、端末装置12へのログイン時に用いるログインアカウントなどである。
出力制御部20Cは、通信部28を介して情報処理装置10から、音声認識結果を含む出力情報を受付ける。出力制御部20Cは、受付けた出力情報を、表示部24Aへ出力する。出力情報の詳細は後述する。
次に、情報処理装置10について説明する。情報処理装置10は、制御部30と、通信部32と、記憶部34と、UI部36と、を備える。通信部32、記憶部34、およびUI部36と、制御部30とは、データまたは信号を授受可能に接続されている。
通信部32は、端末装置12と通信するための通信インターフェースである。UI部36は、ユーザからの操作指示を受付ける入力機能と、画像を表示する表示機能と、を備える。UI部36は、入力機能と表示機能を一体に備えたタッチパネルであってもよい。
記憶部34は、各種の情報を記憶する。記憶部34は、HDDなどの公知の記憶媒体である。なお、記憶部34を、ネットワークNを介して接続された外部装置に設けてもよい。
本実施の形態では、記憶部34は、音素モデル34Aと、発音辞書34Bと、言語モデル34Cと、認識結果DB34Dと、を記憶する。記憶部34に記憶される情報の詳細は後述する。
制御部30は、取得部30Aと、登録部30Bと、特定部30Cと、更新部30Dと、受信部30Eと、受付部30Fと、分解部30Gと、変換部30Hと、判別部30Iと、出力制御部30Jと、を含む。
上記各部は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPUなどのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のICなどのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
まず、取得部30A、登録部30B、特定部30C、および更新部30Dについて説明する。取得部30A、登録部30B、特定部30C、および更新部30Dは、音声認識に用いる発音辞書34Bへの登録および言語モデル34Cの更新を実行するための機能部である。これらの登録および更新は、会議などの場面で原稿に基づいた発話が行われる前に実行される。
取得部30Aは、予め定めた場面で用いられる原稿に含まれるテキストデータを構成する、1または複数の形態素を取得する。
本実施の形態では、取得部30Aは、原稿に含まれるテキストデータを、端末装置12から通信部32を介して受付ける。そして、取得部30Aは、受付けたテキストデータを公知の形態素解析方法を用いて解析することで、該テキストデータを1または複数の形態素に分割する。この処理により、取得部30Aは、原稿に含まれるテキストデータを構成する1または複数の形態素を抽出し、取得する。
形態素とは、意味を成す表現要素の最小単位であり、一つ以上の音素から構成される。本実施の形態では、形態素は、単独で単語を構成する自由形態素、および、他の形態素とともに用いられる拘束形態素、の少なくとも一方であればよい。なお、情報処理システム1では、形態素に代えて、1または複数の形態素から構成される単語を用いてもよい。
なお、取得部30Aは、端末装置12または外部装置などから原稿データを取得してもよい。この場合、取得部30Aは、取得した原稿データを公知の方法で解析することで、該原稿データに含まれるテキストデータを構成する1または複数の形態素を取得すればよい。以下では、原稿に含まれるテキストデータが、複数の形態素から構成される場合を一例として説明する。
登録部30Bは、取得部30Aで取得した形態素の音節を音素に変換し、発音辞書34Bへ登録する。
音節とは、形態素の読みを示し、母音、または母音および子音から構成される。登録部30Bは、音素モデル34Aを用いて形態素の音節を解析し、解析した音節を音素に変換する。そして、登録部30Bは、形態素と、音節と、音素と、を対応付けて発音辞書34Bへ登録する。
音素モデル34Aは、音声を構成する音素と音節(読み)を特定するためのモデルである。音素モデル34Aは、音響モデルと称される場合もある。音素モデル34Aは、音素ごとにモデル化されている。音素モデル34Aには、公知の音素モデルまたは音響モデルを用いればよい。
発音辞書34Bは、後述する言語モデル34Cに登録されている形態素と、音素モデル34Aに示される音素と、を対応付けるための辞書である。
図3は、発音辞書34Bのデータ構成の一例を示す模式図である。発音辞書34Bは、形態素と、音節と、音素と、を対応付けたものである。
なお、図3には、1つの形態素に対して、1つの音節が対応付けられる形態を一例として示した。しかし、1つの形態素(単語)に対して、複数の音節(読み)が存在する場合がある。例えば、日本語表記の形態素”天才”の音節には、”てんさい”、”てんざい”、”てんざえ”、”そらさい”、”そらざい”、”そらざえ”、”あめさい”、”あめざい”、”あめざえ”、”あまさい”、”あまざい”、”あまざえ”などの複数種類の音節(読み)が存在する。
このため、登録部30Bは、1つの形態素に対して、複数種類の音節を対応付けて発音辞書34Bへ登録してもよい。この場合、発音辞書34Bには、1つの形態素に対して、複数種類の音節と、複数種類の音節の各々に対応する音素(または音素列)と、が対応付けて登録される。
図2に戻り説明を続ける。登録部30Bは、取得部30Aで取得したテキストデータに含まれる複数の形態素の各々ごとに、音節および音素を発音辞書34Bへ登録する。このため、発音辞書34Bには、取得部30Aで取得したテキストデータに含まれる全ての形態素の各々に、音節および音素が対応付けて登録される。
言い換えると、発音辞書34Bには、会議などの場面の前に、該場面で用いる原稿に含まれるテキストデータに含まれる複数の形態素の各々と、形態素の音声および音素と、が対応付けて発音辞書34Bへ登録される。
特定部30Cは、取得部30Aで取得したテキストデータに含まれる複数の形態素の各々の、該テキストデータ中の出現頻度を特定する。
出現頻度とは、テキストデータに含まれる形態素の総数に対する、複数の形態素の各々の数の割合を示す。特定部30Cは、公知の解析方法を用いて、出現頻度を特定すればよい。
更新部30Dは、言語モデル34Cに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、出現頻度と基準頻度との差に基づいて更新する。出現頻度の特定に用いた形態素とは、言い換えると、該出現頻度の形態素である。言語モデル34Cは、文字列や単語列が言語(例えば、日本語)として適切か否かを評価するためのモデルである。
図4は、言語モデル34Cのデータ構成の一例を示す模式図である。言語モデル34Cは、複数種類の単語列と、複数種類の単語列の各々のテキストデータ中の出現確率と、を対応づけたものである。
単語列は、1または複数の形態素を組み合わせて配列したものである。1つの形態素が1つの単語を構成する場合、単語列は、複数の単語を組み合せて配列したものである。複数種類の単語列は、含まれる形態素の種類、含まれる形態素の数、および形態素の配列順、の少なくとも一つが互いに異なる。
図4には、一例として、第1語、第2語、および第3語、の3つの形態素を配列した単語列を示した。しかし、言語モデル34Cに登録される単語列を構成する形態素の数は、1つ、2つ、4つ以上、であってもよく、3つの形態素の配列に限定されない。
更新部30Dは、テキストデータに含まれる複数の形態素と、複数の形態素の各々の出現頻度と、を特定部30Cから受付ける。そして、更新部30Dは、受付けた複数の出現頻度の各々ごとに、基準頻度との差を算出する。
基準頻度は、予め定めればよい。例えば、基準頻度には、1つの原稿内に含まれる形態素の各々の出現頻度の、平均の値を予め定めればよい。この平均の値の算出に用いる原稿は、場面で用いられる原稿であってもよいし、一般的な場面で用いられる原稿として予め生成されたものであってもよい。
そして、更新部30Dは、出現頻度が基準頻度より大きいほど、言語モデル34Cに含まれる、該出現頻度の特定に用いた形態素を含む単語列の出現確率を、基準出現確率より高い値に更新する。
基準出現確率は、予め定めればよい。例えば、基準出現確率は、基準頻度と同じ値とすればよい。
一方、更新部30Dは、出現頻度が基準頻度より小さいほど、言語モデル34Cに含まれる、該出現頻度の特定に用いた形態素を含む単語列の出現確率を、基準出現確率より低い値に更新する。
すなわち、更新部30Dは、取得部30Aで取得したテキストデータに含まれる複数の形態素の各々について、該テキストデータ中の出現頻度が高いほど、該形態素を含む単語列の出現確率を、より大きい値に更新する。一方、更新部30Dは、取得部30Aで取得したテキストデータに含まれる複数の形態素の各々について、該テキストデータ中の出現頻度が低いほど、該形態素を含む単語列の出現確率を、より小さい値に更新する。
このように、更新部30Dは、言語モデル34Cに登録されている複数種類の単語列の各々について、原稿中の出現頻度が高い形態素を含む単語列であるほど、対応する出現確率を高い出現確率に更新する。
このため、更新部30Dは、会議などの場面で用いられる原稿に含まれる単語列の出現確率が高くなるように、言語モデル34Cを更新することができる。すなわち、更新部30Dは、音声認識時に、音声データを場面で用いられる特有の形態素を含む文字列に優先的に変換可能となるように、言語モデル34Cを更新することができる。
なお、取得部30A、登録部30B、特定部30C、および更新部30Dは、会議などの場面ごとに、該場面で用いられる1または複数の原稿のテキストデータについて、上記処理を実行する。
例えば、取得部30Aは、場面を識別する場面識別情報と、原稿のテキストデータと、を端末装置12から取得すればよい。場面識別情報は、例えば、会議や講演などの場面を一意に識別可能な情報であればよく、原稿を生成する端末装置12などによって付与されていればよい。
このため、取得部30A、登録部30B、特定部30C、および更新部30Dは、会議などの場面ごとに、該場面で用いられる1または複数の原稿のテキストデータを用いて、発音辞書34Bへの登録および言語モデル34Cの更新を実行することができる。言い換えると、情報処理装置10は、場面ごとに、該場面で用いる原稿に応じた発音辞書34Bへの登録、および言語モデル34Cの更新を実行することができる。
なお、更新部30Dは、言語モデル34Cにおける、場面で用いられる1または複数の原稿の各々のテキストデータに含まれる形態素以外から構成される単語列の出現確率を、基準出現確率に更新することが好ましい。この処理を行うことで、これらの登録や更新の後に続けて開催される場面における音声認識時に、該場面で用いられる形態素の優先順位が高くなるように、言語モデル34Cを更新することができる。すなわち、該場面における音声認識精度の向上を図ることができる。
次に、受信部30E、受付部30F、分解部30G、変換部30H、判別部30I、および出力制御部30Jについて説明する。
受信部30E、受付部30F、分解部30G、変換部30H、判別部30I、および出力制御部30Jは、1または複数の操作者Uによって発話された音声を音声認識するための機能部である。音声認識は、会議などの場面で実行される。
受信部30Eは、音声データおよび該音声データの音声を集音した端末装置12の端末識別情報を、端末装置12から受信する。なお、受信部30Eは、少なくとも音声データを受信すればよい。
会議などの場面では、複数の操作者Uの各々によって発話された音声は、複数の操作者Uの各々が操作する音声入力部22によって集音される。端末装置12は、集音した音声データと端末装置12の端末識別情報を、情報処理装置10へ送信する。このため、情報処理装置10は、複数の端末装置12の各々から、音声データと端末識別情報を受信する。
分解部30Gは、受信部30Eで受信した音声データを、音素モデル34Aを用いて1または複数の音素に分解する。分解部30Gは、公知の方法で、音素モデル34Aを用いて音声データを音素に分解すればよい。例えば、分解部30Gは、音声データの特徴を解析し、特徴に最も近い音素を音素モデル34Aから導出する処理を繰返すことで、1または複数の音素に分解する。
変換部30Hは、分解部30Gで分解された1または複数の音素を、発音辞書34Bおよび言語モデル34Cを用いて解析し、音声データを1または複数の形態素の文字からなる文字列に変換する。
例えば、変換部30Hは、分解部30Gで分解された1または複数の音素の列に対応する形態素を発音辞書34Bから読取る。1または複数の音素の列とは、音声データに含まれる順に時系列に音素を配列したものである。そして、変換部30Hは、読取った形態素を時系列順に並べた単語列の組合せの内、最も出現確率の高い単語列を採用することで、単語列ごとに音声データを文字列に変換する。
この処理を繰返すことで、変換部30Hは、音声データを音声認識し、文字列に変換する。
判別部30Iは、端末識別情報によって識別される端末装置12の操作者Uを、受信部30Eで受信した音声データの発話者として判別する。例えば、判別部30Iは、端末識別情報を、操作者Uの識別情報として用いることで、操作者Uを発話者として判別する。なお、判別部30Iは、端末識別情報と操作者Uの識別情報を対応付けて予め記憶部34に記憶してもよい。この場合、判別部30Iは、受信した端末識別情報に対応する操作者Uの識別情報を記憶部34から読取ることで、音声データの発話者を判別すればよい。
出力制御部30Jは、変換部30Hによる音声データの音声認識結果と、判別部30Iによる音声データの発話者の判別結果と、を対応づけて認識結果DB34Dへ登録する。
図5は、認識結果DB34Dのデータ構成の一例を示す模式図である。例えば、認識結果DB34Dは、発話タイミングと、発話者識別情報と、音声認識結果と、を対応付けたものである。
出力制御部30Jは、音声データの受信タイミングを発話タイミングとして認識結果DB34Dへ登録する。なお、出力制御部30Jは、音声を集音した端末装置12から、音声データと共に該音声データの音声の集音タイミングを受信してもよい。この場合、出力制御部30Jは、該集音タイミングを、該音声データの発話タイミングとして用いればよい。
また、出力制御部30Jは、判別部30Iで判別された該音声データの発話者の発話者識別情報と、変換部30Hによる音声認識結果と、を対応付けて認識結果DB34Dへ登録すればよい。発話者識別情報には、端末識別情報を用いてもよい。
音声認識結果とは、変換部30Hで音声データから変換された、文字列(すなわち文字列のデータ)である。
図2に戻り説明を続ける。そして、出力制御部30Jは、音声認識結果を含む出力情報を、表示部36Aおよび端末装置12の少なくとも一方へ出力する。
出力情報は、音声認識結果を少なくとも含む。出力情報は、判別された発話者識別情報および発話タイミングを更に含んでいてもよい。本実施の形態では、出力情報は、音声認識結果と、発話者識別情報と、発話タイミングと、を含む場合を一例として説明する。
なお、出力制御部30Jは、音声データの音声認識結果である文字列を、発話タイミングに沿って配置した出力画面を生成してもよい。そして、出力制御部30Jは、出力画面を出力情報として端末装置12および表示部36Aの少なくとも一方へ出力してもよい。
図6は、出力画面40の一例を示す模式図である。出力画面40は、音声認識結果である文字列と、発話タイミングと、発話者識別情報とを、発話タイミングに沿って時系列に配置した画面である。
出力制御部30Jが、出力画面40を出力情報として表示部36Aへ出力することで、情報処理装置10の表示部36Aには、出力画面40が表示される。また、出力制御部30Jが、出力画面40を出力情報として、通信部32を介して端末装置12へ送信することで、端末装置12の表示部24Aには、出力画面40が表示される。
このため、会議などの場面に参加中の操作者Uは、音声認識結果を容易に確認することができる。また、情報処理装置10は、音声認識結果に応じた議事録作成を容易に可能な情報を、提供することができる。
なお、場面内で用いられる形態素の出現確率は、場面や時期などに応じて変化すると考えられる。
そこで、更新部30Dは、所定条件を満たした場合、言語モデル34Cに含まれる出現確率を、基準出現確率に更新することが好ましい。
所定条件は、予め定めればよい。所定条件は、例えば、会議などの1つの場面が終了したタイミング、所定時間の経過、予め定めた更新タイミングと一致、などである。
このように、更新部30Dは、所定条件を満たした時に、言語モデル34Cに登録されている出現確率をリセットしてもよい。
また、登録部30Bおよび更新部30Dは、複数の場面の各々ごとに、場面で用いる1または複数の原稿に基づいて、発音辞書34Bへの登録および言語モデル34Cの更新を実行してもよい。
次に、情報処理システム1で実行される情報処理の流れを説明する。
図7は、発音辞書34Bへの登録および言語モデル34Cの更新の流れの一例を示すシーケンス図である。
まず、端末装置12の取得部20Aが、特定の場面で用いられる原稿に含まれるテキストデータを取得する(ステップS100)。
通信制御部20Bは、取得部20Aで取得したテキストデータを情報処理装置10へ送信する(ステップS102、ステップS104)。
情報処理装置10の取得部30Aは、端末装置12から、原稿に含まれるテキストデータを取得する(ステップS104)。取得部30Aは、取得したテキストデータを特定部30Cへ出力する(ステップS106)。また、取得部30Aは、取得したテキストデータから複数の形態素を抽出することで、複数の形態素を取得する(ステップS108)。
取得部30Aは、抽出した複数の形態素を、登録部30Bおよび特定部30Cへ出力する(ステップS110、ステップS112)。
登録部30Bは、取得部30Aで取得した形態素の音節を音素に変換する(ステップS114)。そして、登録部30Bは、取得部30Aで取得したテキストデータに含まれる複数の形態素の各々ごとに、音節および音素を発音辞書34Bへ登録する(ステップS116、ステップS118)。このため、発音辞書34Bには、取得部30Aで取得したテキストデータに含まれる全ての形態素の各々に、音節および音素が対応付けて登録された状態となる。
次に、特定部30Cが、取得部30Aで取得したテキストデータに含まれる複数の形態素の各々の、該テキストデータ中の出現頻度を特定する(ステップS120)。そして、特定部30Cは、複数の形態素の各々と、各形態素の出現頻度と、を更新部30Dへ出力する(ステップS122)。
更新部30Dは、特定部30Cから受付けた複数の形態素の各々ごとに、形態素の出現頻度と基準頻度との差を導出する(ステップS124)。そして、更新部30Dは、特定部30Cから受付けた複数の形態素の各々ごとに、出現頻度と基準頻度との差に基づいて、言語モデル34Cに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を更新する(ステップS126、ステップS128)。
そして、取得部30A、登録部30B、特定部30C、および更新部30Dは、上記ステップS100〜ステップS128によって示される登録更新処理(ステップS1)を、同じ場面で用いられる1または複数の原稿のテキストデータの全てについて実行する。
このため、会議などのある特定の場面で用いられる用語や造語などの形態素の登録された発音辞書34Bと、該場面用に更新された言語モデル34Cと、が記憶部34に記憶された状態となる。
図8は、情報処理システム1で実行される音声認識の流れの一例を示すシーケンス図である。例えば、複数の操作者Uの各々が、各々に割当てられた端末装置12を操作しながら会議などを行う場面を想定する。
端末装置12の取得部20Aは、該端末装置12の操作者Uが発話した音声の音声データを取得する(ステップS200)。端末装置12の通信制御部20Bは、取得部20Aから音声データを受付ける(ステップS202)。通信制御部20Bは、取得部20Aで取得した音声データと、当該端末装置12の端末識別情報とを、情報処理装置10へ送信する(ステップS204)。
情報処理装置10の受信部30Eは、音声データおよび該音声データの音声を集音した端末装置12の端末識別情報を受信する。受信部30Eは、受信した端末識別情報を判別部30Iへ出力する(ステップS206)。また、受信部30Eは、受信した音声データを受付部30Fへ出力する(ステップS208)。受付部30Fは、受付けた音声データを分解部30Gへ出力する(ステップS210)。
分解部30Gは、受付けた音声データを、音素モデル34Aを用いて1または複数の音素に分解する(ステップS212、ステップS214)。そして、分解部30Gは、音声Dエータに含まれる複数の音素の列を、変換部30Hへ出力する(ステップS216)。
変換部30Hは、分解部30Gで分解された複数の音素の列を、発音辞書34Bおよび言語モデル34Cを用いて解析し、音声データを複数の形態素からなる文字列に変換する(ステップS218、ステップS220)。変換部30Hは、音声データに含まれる音素の列を文字列に変換することで、音声データを音声認識する。そして、変換部30Hは、音声データの音声認識結果である文字列を、出力制御部30Jへ出力する(ステップS222)。
判別部30Iは、ステップS206で受付けた端末識別情報によって識別される端末装置12の操作者Uを、受信部30Eで受信した音声データの発話者として判別する(ステップS224)。そして、判別部30Iは、発話者を示す情報(例えば、発話者識別情報または端末識別情報)を、出力制御部30Jへ出力する(ステップS226)。
出力制御部30Jは、変換部30Hによる音声データの音声認識結果と、判別部30Iによる音声データの発話者の判別結果と、を対応づけて認識結果DB34Dへ登録する(ステップS228)。
出力制御部30Jは、音声認識結果を含む出力情報を、表示部36Aおよび端末装置12の少なくとも一方へ出力する(ステップS230、ステップS232、ステップS234)。
端末装置12の出力制御部20Cは、通信部28を介して情報処理装置10から、音声認識結果を含む出力情報を受付ける(ステップS236)。出力制御部20Cは、受付けた出力情報を、表示部24Aへ出力する(ステップS238)。そして、本ルーチンを終了する。
情報処理システム1では、場面ごとに、ステップS200〜ステップS238の音声認識処理を実行する(ステップS2)。
なお、取得部30A、登録部30B、特定部30C、および更新部30Dによって直前に更新された言語モデル34Cに対応する場面とは異なる場面(例えば他の会議)で、音声認識を行う場合がある。この場合、情報処理装置10の制御部30は、場面を識別する場面識別情報ごとに、場面識別情報に対応付けて発音辞書34B、言語モデル34C、および認識結果DB34Dを記憶部34へ記憶しておけばよい。そして、情報処理装置10の制御部30は、音声認識処理を実行する場面の場面識別情報に対応する発音辞書34B、言語モデル34C、および認識結果DB34Dを用いて、上記処理を実行すればよい。
なお、情報処理装置10の更新部30Dは、割込み処理(ステップS3)として、以下の処理を実行する。
詳細には、更新部30Dは、所定条件を満たすと判断すると(ステップS300)、言語モデル34Cに含まれる出現確率を、基準出現確率に更新する(ステップS302、ステップS304)。そして、本ルーチンを終了する。
以上説明したように、本実施の形態の情報処理装置10は、取得部30Aと、登録部30Bと、を備える。取得部30Aは、予め定めた場面で用いられる原稿に含まれるテキストデータを構成する1または複数の形態素を取得する。登録部30Bは、形態素の音節を音素に変換し、発音辞書34Bに登録する。
ここで、音声認識を行う場面では、場面特有の専門用語または造語が用いられる場合がある。しかし、従来技術では、辞書に未登録の用語や造語を音声認識することは困難であり、誤認識が発生する場合があった。
一方、本実施の形態の情報処理装置10は、会議や講義などの予め定めた場面で用いられる原稿に基づいて、原稿のテキストデータに含まれる形態素を発音辞書34Bへ登録する。
このため、情報処理装置10は、音声認識を行う場面で、場面特有の専門用語や造語などが用いられる場合であっても、場面で用いられる原稿に含まれる単語などの形態素を、発音辞書34Bへ事前に登録することができる。このため、本実施の形態の情報処理装置10では、音声認識時に、該場面用に事前に更新された発音辞書34Bを用いることで、誤認識が発生することを抑制することができる。
従って、本実施の形態の情報処理装置10は、音声認識精度向上を図ることができる。
また、特定部30Cは、テキストデータに含まれる複数の形態素の各々の、テキストデータ中の出現頻度を特定する。更新部30Dは、複数種類の単語列の各々のテキストデータ中の出現確率を規定した言語モデル34Cに含まれる、出現頻度の特定に用いた形態素を含む単語列の出現確率を、該出現頻度と基準頻度との差に基づいて更新する。
更新部30Dが、テキストデータ中の形態素の出現頻度に基づいて言語モデル34Cを更新するため、音声認識精度の向上を更に図ることができる。
また、更新部30Dは、出現頻度が基準頻度より大きいほど、言語モデル34Cに含まれる、該出現頻度の特定に用いた形態素を含む単語列の出現確率を、基準出現確率より高い値に更新する。また、更新部30Dは、出現頻度が基準頻度より小さいほど、言語モデル34Cに含まれる、該出現頻度の特定に用いた形態素を含む単語列の出現確率を、基準出現確率より低い値に更新する。
このため、更新部30Dは、原稿に含まれる出現頻度の高い形態素を含む単語列ほど、高い出現確率を言語モデル34Cへ規定することができる。よって、更新部30Dは、場面における音声認識精度の更なる向上を図ることができる。
また、更新部30Dは、所定条件を満たした場合、言語モデル34Cに含まれる出現確率を基準出現確率に更新する。このため、所定条件に例えば場面ごとや特定の期間ごとなどの条件を用いることで、場面や期間に適した音声認識を行うことができる。
また、受付部30Fは、音声データを受付ける。分解部30Gは、音声データを1または複数の音素に分解する、変換部30Hは、1または複数の音素を、発音辞書34Bおよび言語モデル34Cを用いて解析し、音声データを文字列に変換する。
変換部30Hは、原稿に含まれるテキストデータに基づいて登録された発音辞書34Bおよび更新された言語モデル34Cを用いて、音声認識を行うため、音声認識精度の向上を図ることができる。
受信部30Eは、音声データおよび音声データの送信元の端末識別情報を受信する。判別部30Iは、端末識別情報によって識別される端末装置12の操作者Uを、音声データの発話者として判別する。このため、情報処理装置10は、上記効果に加えて、音声データの発話者を容易に判別することができる。
また、本実施の形態の情報処理システム1は、情報処理装置10と、情報処理装置10と通信する端末装置12と、を備える。情報処理装置10が上記構成であるため、情報処理システム1は、音声認識精度向上を図ることができる。
なお、上記実施の形態では、情報処理装置10側で、原稿に含まれるテキストデータの抽出、テキストデータからの形態素の抽出、およびテキストデータにおける形態素の出現頻度の特定、を実行する形態を一例として説明した。
しかし、原稿に含まれるテキストデータの抽出、テキストデータからの形態素の抽出、およびテキストデータにおける形態素の出現頻度の特定、の少なくとも1つの処理を、端末装置12側で実行してもよい。この場合、端末装置12側に、取得部30A、登録部30B、および特定部30Cの少なくとも1つを設けた構成とすればよい。例えば、端末装置12の制御部20に、取得部30A、登録部30B、および特定部30Cを更に備えた構成とする。この場合、端末装置12は、取得した原稿に含まれるテキストデータと、テキストデータに含まれる1または複数の形態素と、1または複数の形態素の各々の出現頻度と、を情報処理装置10へ送信すればよい。
(ハードウェア構成)
次に、上記実施の形態の情報処理装置10および端末装置12のハードウェア構成の一例を説明する。図9は、情報処理装置10および端末装置12のハードウェア構成図の一例を示す図である。
情報処理装置10および端末装置12は、CPU80などの制御装置と、ROM(Read Only Memory)82、RAM(Random Access Memory)84、およびHDD(ハードディスクドライブ)86などの記憶装置と、各種機器とのインターフェースであるI/F部88と、各部を接続するバス90とを備えており、通常のコンピュータを利用したハードウェア構成となっている。
情報処理装置10および端末装置12では、CPU80が、ROM82からプログラムをRAM84上に読み出して実行することにより、上記各部がコンピュータ上で実現される。
なお、情報処理装置10および端末装置12で実行される上記各処理を実行するためのプログラムは、HDD86に記憶されていてもよい。また、情報処理装置10および端末装置14で実行される上記各処理を実行するためのプログラムは、ROM82に予め組み込まれて提供されていてもよい。
また、情報処理装置10および端末装置12で実行される上記処理を実行するためのプログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM、CD−R、メモリカード、DVD(Digital Versatile Disk)、フレキシブルディスク(FD)等のコンピュータで読み取り可能な記憶媒体に記憶されてコンピュータプログラムプロダクトとして提供されるようにしてもよい。また、情報処理装置10および端末装置12で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するようにしてもよい。また、情報処理装置10および端末装置12で実行される上記処理を実行するためのプログラムを、インターネットなどのネットワーク経由で提供または配布するようにしてもよい。
なお、上記には、本発明の実施の形態を説明したが、上記実施の形態は、例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。この実施の形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…情報処理システム、10…情報処理装置、12…端末装置、30A…取得部、30B…登録部、30C…特定部、30D…更新部、30E…受信部、30F…受付部、30G…分解部、30H…変換部、30I…判別部

Claims (7)

  1. 予め定めた場面で用いられる原稿に含まれるテキストデータを構成する1または複数の形態素を取得する取得部と、
    前記形態素の音節を音素に変換し、発音辞書に登録する登録部と、
    前記テキストデータに含まれる複数の前記形態素の各々の、前記テキストデータ中の出現頻度を特定する特定部と、
    複数種類の単語列の各々の前記テキストデータ中の出現確率を規定した言語モデルに含まれる、前記出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、
    を備える情報処理装置。
  2. 前記更新部は、
    前記出現頻度が前記基準頻度より大きいほど、前記言語モデルに含まれる、該出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、基準出現確率より高い値に更新し、
    前記出現頻度が前記基準頻度より小さいほど、前記言語モデルに含まれる、該出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、前記基準出現確率より低い値に更新する、
    請求項に記載の情報処理装置。
  3. 前記更新部は、
    所定条件を満たした場合、前記言語モデルに含まれる前記出現確率を前記基準出現確率に更新する、
    請求項に記載の情報処理装置。
  4. 音声データを受付ける受付部と、
    前記音声データを1または複数の音素に分解する分解部と、
    1または複数の前記音素を、前記発音辞書および前記言語モデルを用いて解析し、前記音声データを文字列に変換する変換部と、
    を備える請求項に記載の情報処理装置。
  5. 前記音声データおよび前記音声データの送信元の端末識別情報を受信する受信部と、
    前記端末識別情報によって識別される端末装置の操作者を、前記音声データの発話者として判別する判別部と、
    を備える、請求項に記載の情報処理装置。
  6. 情報処理装置と、前記情報処理装置と通信する端末装置と、を備えた情報処理システムであって、
    前記情報処理装置は、
    前記端末装置で生成された予め定めた場面で用いられる原稿に含まれる、テキストデータを構成する1または複数の形態素を取得する取得部と、
    前記形態素の音節を音素に変換し、発音辞書に登録する登録部と、
    前記テキストデータに含まれる複数の前記形態素の各々の、前記テキストデータ中の出現頻度を特定する特定部と、
    複数種類の単語列の各々の前記テキストデータ中の出現確率を規定した言語モデルに含まれる、前記出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、該出現頻度と基準頻度との差に基づいて更新する更新部と、
    を備える、情報処理システム。
  7. 予め定めた場面で用いられる原稿に含まれるテキストデータを構成する1または複数の形態素を取得するステップと、
    前記形態素の音節を音素に変換し、発音辞書に登録するステップと、
    前記テキストデータに含まれる複数の前記形態素の各々の、前記テキストデータ中の出現頻度を特定するステップと、
    複数種類の単語列の各々の前記テキストデータ中の出現確率を規定した言語モデルに含まれる、前記出現頻度の特定に用いた前記形態素を含む前記単語列の前記出現確率を、該出現頻度と基準頻度との差に基づいて更新するステップと、
    をコンピュータに実行させるための情報処理プログラム。
JP2019011654A 2019-01-25 2019-01-25 情報処理装置、情報処理システム、および情報処理プログラム Active JP6810363B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2019011654A JP6810363B2 (ja) 2019-01-25 2019-01-25 情報処理装置、情報処理システム、および情報処理プログラム
US16/720,232 US20200243092A1 (en) 2019-01-25 2019-12-19 Information processing device, information processing system, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019011654A JP6810363B2 (ja) 2019-01-25 2019-01-25 情報処理装置、情報処理システム、および情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2020118910A JP2020118910A (ja) 2020-08-06
JP6810363B2 true JP6810363B2 (ja) 2021-01-06

Family

ID=71733751

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019011654A Active JP6810363B2 (ja) 2019-01-25 2019-01-25 情報処理装置、情報処理システム、および情報処理プログラム

Country Status (2)

Country Link
US (1) US20200243092A1 (ja)
JP (1) JP6810363B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190113693A (ko) * 2019-09-18 2019-10-08 엘지전자 주식회사 단어 사용 빈도를 고려하여 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3911178B2 (ja) * 2002-03-19 2007-05-09 シャープ株式会社 音声認識辞書作成装置および音声認識辞書作成方法、音声認識装置、携帯端末器、音声認識システム、音声認識辞書作成プログラム、並びに、プログラム記録媒体
JP4218758B2 (ja) * 2004-12-21 2009-02-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕生成装置、字幕生成方法、及びプログラム

Also Published As

Publication number Publication date
US20200243092A1 (en) 2020-07-30
JP2020118910A (ja) 2020-08-06

Similar Documents

Publication Publication Date Title
US6910012B2 (en) Method and system for speech recognition using phonetically similar word alternatives
US6327566B1 (en) Method and apparatus for correcting misinterpreted voice commands in a speech recognition system
CN1655235B (zh) 基于话音特征自动标识电话呼叫者
US11494434B2 (en) Systems and methods for managing voice queries using pronunciation information
US20150179173A1 (en) Communication support apparatus, communication support method, and computer program product
CN110335608B (zh) 声纹验证方法、装置、设备及存储介质
JP2018045001A (ja) 音声認識システム、情報処理装置、プログラム、音声認識方法
US20210034662A1 (en) Systems and methods for managing voice queries using pronunciation information
JP7400112B2 (ja) 自動音声認識のための英数字列のバイアス付加
JP2002062891A (ja) 音素割当て方法
JP6810363B2 (ja) 情報処理装置、情報処理システム、および情報処理プログラム
JP5160594B2 (ja) 音声認識装置および音声認識方法
US11694028B2 (en) Data generation apparatus and data generation method that generate recognition text from speech data
JP2013050742A (ja) 音声認識装置および音声認識方法
JP6233867B2 (ja) 音声認識用辞書登録システム、音声認識システム、音声認識サービスシステム、方法およびプログラム
JP6347938B2 (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
CN112614482A (zh) 移动端外语翻译方法、系统及存储介质
US11410656B2 (en) Systems and methods for managing voice queries using pronunciation information
JP5208795B2 (ja) 通訳装置、方法、及びプログラム
JP6347939B2 (ja) 発話内重要語抽出装置とその装置を用いた発話内重要語抽出システムと、それらの方法とプログラム
US10304460B2 (en) Conference support system, conference support method, and computer program product
JP7414078B2 (ja) 変換テーブル生成装置、音声対話システム、変換テーブル生成方法、およびコンピュータプログラム
JP2015176037A (ja) 発音表示装置、発音表示方法、及びプログラム
GB2568902A (en) System for speech evaluation
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200609

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200729

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201123

R150 Certificate of patent or registration of utility model

Ref document number: 6810363

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150