JP2008151926A - 音声処理用の辞書に登録するべき新規語句を検索する技術 - Google Patents

音声処理用の辞書に登録するべき新規語句を検索する技術 Download PDF

Info

Publication number
JP2008151926A
JP2008151926A JP2006338454A JP2006338454A JP2008151926A JP 2008151926 A JP2008151926 A JP 2008151926A JP 2006338454 A JP2006338454 A JP 2006338454A JP 2006338454 A JP2006338454 A JP 2006338454A JP 2008151926 A JP2008151926 A JP 2008151926A
Authority
JP
Japan
Prior art keywords
phrase
word
combination
words
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006338454A
Other languages
English (en)
Other versions
JP4446313B2 (ja
Inventor
Nobuyasu Ito
伸泰 伊東
Shinsuke Mori
信介 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2006338454A priority Critical patent/JP4446313B2/ja
Priority to US11/956,574 priority patent/US8140332B2/en
Publication of JP2008151926A publication Critical patent/JP2008151926A/ja
Application granted granted Critical
Publication of JP4446313B2 publication Critical patent/JP4446313B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】テキストを語句に分割する分割装置が有する辞書に新たに登録すべき新規語句を検索する。
【解決手段】このシステムは、学習用テキストを分割装置に入力して語句に分割させることにより、それぞれが学習用テキストの分割結果として互いに組合せの異なる語句を含む複数の分割候補のそれぞれを、分割結果の確信度に対応付けて生成し、語句毎に、当該語句を含むそれぞれの分割候補に対応する確信度を合計することにより、当該語句が新規語句であることの尤度を算出し、少なくとも何れか1つの分割候補に含まれる語句の組合せのうち、その組合せに属する語句によって学習用テキスト全体を表記できる範囲内で、その組合せに属する各語句が対応する尤度に応じた頻度で学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索して、新規語句を含む語句の組合せとして出力する。
【選択図】図1

Description

本発明は、語句を検索する技術に関する。特に、本発明は、音声処理用の辞書に登録するべき新規語句を検索する技術に関する。
日本語のような語句の境界が明示されていない言語について、音声認識や音声合成をするためには、テキストを複数の語句に正しく分割することが望ましい。そして、高精度な分割を実現するためには、テキストを語句に分割する分割装置の辞書に様々な語句をその出現頻度に対応付けて予め登録しておくことが望ましい。従来、充分な量の語句を登録するためには、語句の境界が判明している学習用テキストが必要となっていた。しかしながら、このような学習用テキストは、人手で構築されるため充分な量の確保が難しかった。
浅原, 松本: 形態素解析とチャンキングの組み合わせによる日本語テキスト中の未知語出現箇所同定, 情報処理学会研究報告, NL154-8, pp. 47-54, (2003) 伊東他: n-gramを用いた日本語テキストの単語単位への分割, 情報処理学会研究報告, NL-122, (1997). 森他: 日本語の情報量の上限の推定, 情報処理学会論文誌, Vol.38, No. 11, pp. 2191-2199, (1997). 森, 長尾: nグラム統計によるコーパスからの未知語抽出, 情報処理学会論文誌, Vol. 39, No. 7, pp. 2093-2100, (1998). 長野他: N-gramモデルを用いた音声合成のための読みおよびアクセントの同時推定, 情報処理学会論文誌, Vol. 47, No. 6, (2006). 永田: 単語頻度の再推定による自己組織化単語分割, 情報処理学会研究報告, NL121, pp.9-16, (1997). 永田: 統計的言語モデルとN-best探索を用いた日本語形態素解析法, 情報処理学会論文誌, Vol. 40, No. 9, pp. 3420-3431, (1999). 内元他: 最大エントロピーモデルに基づく形態素解析 - 未知語の問題の解決策, 自然言語処理, Vol. 8, No. 1, pp. 127-141, (2001). Yamamoto, M., Church, K. W.: Using Suffix Arrays to Compute Term Frequency and Document Frequency for all Substrings in a Corpus, Computational Linguistics, Vol. 27, No. 1, pp. 1-30, (2001). Viterbi, A. J.: Error Bounds for Convolutional Codes and an Asymptotically Optimum Decoding Algorithm, IEEE Trans. on Information Theory, Vol. IT-13, No.2, pp.260-269, (1967).
これに対し、従来、充分な量の学習用テキストが無くても、語句の境界を判断できるようにする技術が提案されている。1つは、語句の中である文字と他の文字とが連続して表記される頻度や、語句に含まれる文字数などの統計情報を学習用テキストから予め算出しておき、それを辞書未登録語の判断に用いる技術である(非特許文献3、非特許文献7、非特許文献2、非特許文献8および非特許文献1を参照。)。他の技術として、ある入力文字列に対し、その文字列の語句らしさを示す指標値を算出する技術が提案されている(非特許文献4および非特許文献9を参照。)。しかしながら何れの技術によっても、辞書未登録の語句を精度良く判断しようとすれば、判断しようとする未登録語句の性質について充分な情報が必要となる矛盾が生じる場合があった。また、未登録語句についての情報が一定の場合には、未登録語句として検出可能な語句の数を増やそうとすると、検出の精度が低下し易いというトレードオフがあった。
そこで本発明は、上記の課題を解決することのできるシステム、方法およびプログラムを提供することを目的とする。この目的は特許請求の範囲における独立項に記載の特徴の組み合わせにより達成される。また従属項は本発明の更なる有利な具体例を規定する。
上記課題を解決するために、本発明の一側面においては、入力されるテキストを複数の語句に分割する分割装置が有する辞書に新たに登録すべき語句である新規語句を検索するシステムであって、学習用テキストを分割装置に入力して語句に分割させることにより、それぞれが学習用テキストの分割結果として互いに組合せの異なる語句を含む複数の分割候補のそれぞれを、分割結果の確信度に対応付けて生成する分割候補生成部と、語句毎に、当該語句を含むそれぞれの分割候補に対応する確信度を合計することにより、当該語句が新規語句であることの尤度を算出する合計算出部と、少なくとも何れか1つの分割候補に含まれる語句の組合せのうち、その組合せに属する語句によって学習用テキスト全体を表記できる範囲内で、その組合せに属する各語句が対応する尤度に応じた頻度で学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索して、新規語句を含む語句の組合せとして出力する検索部とを備えるシステムを提供する。また、当該システムにより新規語句を検索する方法および当該システムとして情報処理装置を機能させるプログラムを提供する。
なお、上記の発明の概要は、本発明の必要な特徴の全てを列挙したものではなく、これらの特徴群のサブコンビネーションもまた、発明となりうる。
以下、発明の実施の形態を通じて本発明を説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。
図1は、検索システム10の全体構成を示す。検索システム10は、分割候補生成部100と、合計算出部110と、検索部120と、分割学習部130とを備え、分割装置60が有する辞書に新たに登録すべき語句である新規語句を検索することを目的とする。分割候補生成部100は、外部から学習用テキストを取得し、取得したその学習用テキストを分割装置60に入力して語句に分割させる。分割装置60は、テキストを語句に分割するための辞書を格納した記憶部610と、その辞書に基づきテキストを語句に分割する分割部600とを有する。分割部600は、分割候補生成部100から入力された学習用テキストを辞書に基づいて分割する。
たとえば、記憶部610における辞書には、語句の表記がその語句の出現頻度に対応付けて記録されている。この出現頻度は、予め与えられた膨大な量のテキストの中からそれぞれの語句の出現回数をカウントすることなどによって、予め算出されたものである。分割部600は、学習用テキストに含まれる文字列が記憶部610に記憶された辞書に登録されている場合には、その文字列がその辞書に登録されていない場合と比較して高い確率でその文字列を語句と判断する。また、同じ登録された状態であっても、より高い出現頻度に対応付けて辞書に記録された語句は、より高い確率で語句と判断される。
分割部600は、分割結果を一意に定めるものであるから、入力されたテキストについて、そのテキストの複数の語句への分割のうち、辞書に記録された出現頻度に基づき最も確からしい分割結果を出力するものである。しかしながら、分割部600は、最も確からしい分割結果を生成する過程の内部処理において、必ずしも最も確からしくは無いが、入力されたテキストを複数の語句へ分割する候補を生成する場合がある。分割候補生成部100は、分割装置60に指示して、このような分割の候補を複数生成させる。そして、分割候補生成部100は、それぞれの分割候補をその分割結果の確信度に対応付けて分割装置60により生成させ、合計算出部110に対し出力する。これらの分割候補および確信度を分割候補データ15とする。
なお、分割候補生成部100は、生成した複数の分割候補を全て出力するのではなく、これらの中から、対応する確信度の値の大きいものから予め定められた数の分割候補を選択して、出力するのが望ましい。当該予め定められた数は任意に設定することができるが、一例としては10個である。更に他の例として、分割候補生成部100は、分割候補をその個数ではなくその確信度に基づいて選択し、出力してもよい。たとえば、分割候補生成部100は、生成した複数の分割候補の中から、最大の確信度との差分が予め定められた範囲内の確信度に対応する分割候補を選択して、出力してもよい。
分割候補データ15において、複数の分割候補のそれぞれは、学習用テキストの分割結果として互いに組合せの異なる語句を含む。たとえば「これはサンプル文です。」という学習用テキストについて、ある分割候補は、「これ」、「は」、「サンプル文」、「です」および「。」の5つの語句の組合せを含む。他の分割候補は、「これは」、「サンプル」、「文」、「です」および「。」の5つの語句の組合せを含む。ここで、語句とは、意味解析の単位を示すものであり、必ずしも単語そのものや、文節、または句とは限らない。詳細には、語句とは、たとえば、文法上の品詞のみならず、意味解析に必要な拡張的な品詞(たとえば接尾的な文末表現や句読点そのものなど)を含む品詞群に分解可能な文字列の単位である。
それぞれの分割候補に対応付けられる確信度は、図1ではp1からp4と変数により示したが、実際には具体的な数値、たとえば50%などの百分率であってもよいし、頻度スコア30などの指標値であってもよい。合計算出部110は、語句毎に、当該語句を含むそれぞれの分割候補に対応するこの確信度を合計することにより、その語句が新規語句であることの尤度を算出する。たとえば、語句「これ」は、第1の分割候補にも第3の分割候補にも第4の分割候補にも含まれているので、それぞれに対応する確信度p1、p3およびp4を合計した(p1+p3+p4)がこの語句が新規語句であることの尤度として算出される。
検索部120は、少なくとも何れか1つの分割候補に含まれる語句の組み合わせのうち、その組合せに属する語句によって学習用テキストを表記できる組合せを生成する。たとえば、「これ」「これは」「サンプル文」「です」「。」から構成される組合せは、「これはサンプル文です。」という文を文字を欠落させることなく表記できる。一方、「これ」「サンプル文」「です」「。」から構成される組合せは、「は」という文字列が不足しているので、「これはサンプル文です。」という文を表記するためには語句が不足している。このように、学習用テキストを表記できる語句の組合せとは、重複は許し不足を許さない範囲内で選択した語句の組合せのことをいう。
そして、検索部120は、そのそれぞれの組合せの中から、その組合せに属する各語句が対応する尤度に応じた頻度で学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索する。たとえば、語句「これ」は、実際には、第1、第3および4の分割候補に含まれるので、合計3回出現している。しかしながら、検索部120の処理においては、この語句「これ」が、検索部120により算出された尤度(p1+p3+p4)に応じた頻度で出現するものとみなす。尤度に応じた頻度とは、たとえば尤度そのものであってもよいし、尤度に比例する数値であってもよい。尤度に比例する数値としては、たとえば、生成した全ての分割候補に対応する確信度の合計(すなわちn個の分割候補があるとしたらp1からpnの合計)を1として正規化した数値を用いるのが好ましい。このような計算の一例は非特許文献6を参照されたい。
そして、語句の情報エントロピーは、たとえば以下の式(1)に示す数式によって計算される数値である。
Figure 2008151926
ここで、Vは、少なくとも何れかの分割候補に含まれる語句の集合を示す。Vのうえに−(バー)を付したものが、求めるべき語句の組合せである。V´は、語句の組合せを求める過程で一時的に語句の組合せを格納する変数である。H(V´)は、V´に含まれる語句の情報エントロピーを示し、argminはこれを最小化するV´を求めることを示す演算子である。語句の情報エントロピーH(V´)は、V´に含まれる語句のそれぞれ(w)について、その出現確率であるP(w)とその対数を乗じたものに−1を乗じた値を求め、各語句について合計したものである。出現確率P(w)は、たとえば、上記で説明した頻度の値を、何れかの分割候補に出現する全ての語句の出現確率の合計が1となるように正規化したものであり、つまりは、各語句についての上記頻度の合計で除することによって算出される。
具体的な計算方法としては、たとえば、検索部120は、少なくとも何れかの分割候補に含まれる語句のあらゆる組合せのそれぞれを、入力された学習用テキストと比較して、当該あらゆる組合せの中から、この学習用テキストを表記できる組合せを選択する。そして、検索部120は、選択したそれぞれの組合せを式(1)中のV´とおいてH(V´)の値を計算する。そして、検索部120は、計算したH(V´)の値のそれぞれを比較して、その値の最も小さいときのV´を検索して、情報エントロピーを最小化する語句の組合せとする。語句の組合せの数が膨大な場合にはこの方法では計算時間が大きくなり過ぎる場合があるので、他の方法についても図2等を参照して後に説明する。
検索部120は、このように検索した語句の組合せを、新規語句を含む語句の組合せとして分割学習部130に出力する。分割学習部130は、検索部120により検索された、新規語句を含む語句の組合せに含まれる語句について、その語句が記憶部610に既に記憶されている場合にはその語句に対応する頻度の指標値を増加させる。分割学習部130は、その語句が記憶部610に記憶されていない場合にはその語句を記憶部610中の辞書に新たに登録する。これにより、検索された新規語句を分割装置60により語句として判断され易くすることができる。
図2は、検索部120の機能構成を示す。本図を参照して、上述の情報エントロピーに関する処理において、語句の組合せが多すぎて計算時間が問題となる場合について、行う他の処理について説明する。この処理によれば、近似的に情報エントロピーを最小化する語句の組合せをより高速に検索することができる。検索部120は、情報量算出部200と、メモリ210と、語句結合部220と、語句分割部230とを有する。情報量算出部200は、少なくとも何れか1つの分割候補に含まれる語句のそれぞれについて、その語句が、その語句に対応する尤度に応じた頻度で学習用テキストに出現するとみなした場合のその語句の情報量を算出する。情報量の算出処理は、たとえば以下の式(2)によって表される。
Figure 2008151926
この式に示すように、各語句wの情報量は、その語句wの尤度に応じた出現確率であるP(w)の2を底とする対数に−1を乗じることにより算出される。情報量算出部200は、このように算出した各語句についての情報量をメモリ210に記憶する。また、メモリ210に記憶された語句の組合せが、暫定的に、新規語句を含むとして検索するべき語句の組合せを示すものとする。さらに、後述の処理機能において複数語句を結合したり語句を複数語句に分割するときに、情報量を再計算するために、メモリ210は、各語句について合計算出部110により算出された尤度を記憶していることが望ましい。
語句結合部220は、少なくとも何れか1つの分割候補に含まれる語句のうち、ある第1語句について算出した第1の情報量と、その第1語句を示す文字列を含む第2語句の情報量である第2の情報量とを比較する。処理の具体例としては、まず、語句結合部220は、メモリ210にアクセスして、ある第1語句と、その第1語句を示す文字列を含む第2語句とを検索する。検索するべき第1語句および第2語句は前方一致または後方一致の関係、即ち、第1語句は、第2語句の中央部分でなく先頭部分又は末尾部分に含まれることが望ましい。そして、語句結合部220は、検索した第1語句に対応する第1の情報量と、検索した第2語句に対応する第2の情報量とをメモリ210から読み出す。そして、語句結合部220は、読み出した第1の情報量および第2の情報量を比較する。
そして、語句結合部220は、第1の情報量よりも第2の情報量が小さいことを条件に、新規語句を含む語句の組合せとしてメモリ210に記憶されている語句の中から、この第1語句を除外する。また、語句結合部220は、第2語句が、新規語句を含む語句の組合せとしてメモリ210に記憶されていなければ、メモリ210に第2語句を追加する。但し、本実施形態でははじめに全ての語句がメモリ210に記憶されているという前提であるから、第2語句を追加する必要はない。
語句分割部230は、少なくとも何れか1つの分割候補に含まれる語句のうち、第3語句、第4語句、および、第3語句を示す文字列および第4語句を示す文字列を連結した第5文字列を検索する。検索はメモリ210を走査することによって実現される。そして、語句分割部230は、第3語句について算出した第3の情報量、および、第4語句について算出した第4の情報量の合計を計算して、その合計と、第5語句について算出した第5の情報量とを比較する。各情報量は、各語句に対応する情報量の値をメモリ210から検索することによって取得できる。
そして、語句分割部230は、第3の情報量および第4の情報量の合計が、第5の情報量よりも小さいことを条件に、新規語句を含む語句の組合せとしてメモリ210に記憶された語句の組合せの中から第5語句を除外する。また、語句分割部230は、第3語句および第4語句が、新規語句を含む語句の組み合わせとしてメモリ210に記憶されていなければ、メモリ210に第3語句および第4語句を追加する。上述の説明と同様、本実施形態においては追加する必要はない。
なお、ここでは、第5語句が第3語句および第4語句という2つの語句の連結で表記できる場合について説明したが、3以上の語句の連結で表記できる場合も同様である。この場合において第5語句を除外する条件は、以下の式(3)のように表される。
Figure 2008151926
情報量算出部200は、メモリ210および語句結合部220による処理の毎に、その処理後のメモリ210に記憶された語句のそれぞれについて、情報量を再度計算してメモリ210を更新する。検索部120は、以上の情報量算出部200、語句結合部220および語句分割部230による処理を、処理によってメモリ210の内容が変更されなくなるまで繰り返し、変更されなくなった時点のメモリ210の内容を出力する。
図3は、検索システム10により新規語句を検索する処理の流れを示す。分割候補生成部100は、分割装置60に指示して、それぞれが学習用テキストの分割結果を示す複数の分割候補のそれぞれを、分割結果の確信度に対応付けて生成する(S300)。確信度は、分割の確からしさを示す指標値であればどのようなものでもよく、その算出方法は分割装置60において採用する技術に依存するが、図4にその算出方法の一例を示す。
図4は、確信度算出の処理の一例を示す。n−gramモデルと呼ばれる技術においては、テキスト中で連続して表記され得るn個の語句の組合せごとに、その語句の組合せの出現頻度を示す数値を予め記憶している。図4(a)に、2個の語句の組合せに関するbi−gramモデルにつき、予め記憶している頻度を模式的に示す。この図において、「これ」という語句の次に「は」という語句が連続して表記される頻度はa1であり、「は」と「サンプル文」とが連続して表記される頻度はa2であり、「サンプル文」と「です」とが連続して表記される頻度はa3である。
また、「です」の次に句点「。」が連続する頻度はa4である。また、同じ「サンプル文」という文字列でも、それが「サンプル」という語句と「文」という語句との連続である頻度はb2である一方、「サン」という語句と「プル」という語句との連続である頻度はc2であり、「プル」という語句と「文」という語句との連続である頻度はc3である。このように、このような頻度の情報は、語句と語句の連続する頻度を示すものであるとともに、与えられた文字列をどのような語句に分割するのが尤もらしいかということも表している。そして、このような頻度は、言語の専門家などが意味解析のうえで正しい語句の区切りを、膨大なテキストについて判断して決定することによって予め求められている。
もちろん、全ての語句の組合せについて予めこのような頻度が予め与えられていれば、本実施形態のような新規語句の検索は不要であるが、全ての語句についてあらかじめ頻度を決定しておくのは現実的ではない。このため、分割装置60によっては、頻度の与えられていない語句の組合せについては、予め定められた極めて小さい頻度値を設定したり、文字と文字とが連続する頻度を予め記憶しておいて、その頻度に基づき頻度値を算出するなどする。このように、予め記憶されたり、予め記憶されていないため分割装置60に生成された頻度の値が図4(a)に示すa1−4、b1−3、c1−3、および、d1である。
そして、分割部600は、このようにして頻度の与えられた語句の組合せをどのように組合せると、入力された学習用テキストを表記できるかを判断する。たとえば、分割部600は、学習用テキストの少なくとも一部と一致する語句を記憶部610から検索してノードとし、その語句に対応して記憶されている頻度の値をエッジとしたグラフを生成する。このようにして生成したのが図4(a)のグラフである。そして、分割部600は、このグラフを学習用テキストの先頭文字列から順に後尾に辿って得られるそれぞれの経路について、各エッジに対応する頻度の値を乗じる。この計算を図4(b)に示す。
たとえば、分割部600は、「これ」「は」「サンプル文」「です」および「。」を順次辿る経路上の各エッジの頻度a1、a2、a3およびa4を乗じる。このようにして算出したのがこの分割候補の確信度p1である。他の経路についても同様である、他の経路を辿る各エッジには、頻度b1、b2、b3およびa4がそれぞれ対応付けられているので、これらを乗じたものがこの経路の示す分割候補の確信度p2となる。分割部600は、このように各経路について計算した確信度のうち最大の確信度を選択して、その確信度に対応する経路が示す分割候補を、分割結果として出力する。最大確信度の選択は例えばビタービのアルゴリズムとして知られた従来手法により高速な処理として実現できる(非特許文献10を参照。)。また、分割部600は、分割候補生成部100からの指示を受けて分割候補を複数出力する場合には、グラフ中の複数の経路に対応する複数の分割候補を、その経路上の頻度を乗じることによって得られる確信度に対応付けて出力する。
図3に戻る。次に、合計算出部110は、語句毎に、その語句を含む各分割候補に対応する確信度を合計して、その語句が新規語句であることの尤度とする(S310)。そして、検索部120は、少なくとも何れか1つの分割候補に含まれる語句の組合せのうち、その組合せに属する語句によって学習用テキスト全体を表記できる範囲内で、その組合せに属する各語句が、対応する尤度に応じた頻度で学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索する(S320)。
検索部120は、情報エントロピーに代えて、情報エントロピーの性質を併せ持つ他の指標値を用いてもよい。この指標値は、たとえば、情報エントロピーの値と、語句の組合せに属する語句の数を示す指標値との合計を示すものである。このような指標値は、具体的には、MDL(Minimum Description Length)、BIC(Bayesian Information Criterion)、AIC(Akaike Information Criterion)として知られている。このような指標値を最小化することで、検索部120は、情報エントロピーをある程度小さくしつつも、検索される語句の数を少なく抑えることができるので、新規語句を含む語句の組合せが検索されてもそれに含まれる語句の数が多すぎてどれが本来の新規語句であるか判断が困難となるのを防ぐことができる。そして、次に、分割学習部130は、検索部120により検索された語句を記憶部610に新たに登録する(S330)。
図5は、S320における処理の詳細を示す。情報量算出部200は、少なくとも何れか1つの分割候補に含まれる語句のそれぞれについて、その語句が、その語句に対応する尤度に応じた頻度で学習用テキストに出現するとみなした場合のその語句の情報量を算出し、その結果をメモリ210に記憶する(S500)。
次に、語句結合部220は、算出したこの情報量に基づいて、本来1つの語句として認識されるべきだが複数の語句として認識されているために1つの語句として結合するべき語句があるかどうかを判断する(S510)。具体的には、語句結合部220は、少なくとも何れか1つの分割候補に含まれる語句のうち、ある第1語句について算出した第1の情報量よりも、その第1語句を示す文字列を含む第2語句の情報量である第2の情報量が小さいことを条件に(S520:YES)、メモリ210からこの第1語句を除外する(S530)。この除外の処理の一例を、図6を参照して説明する。
図6は、メモリ210に記憶された語句の第1例を示す。図6において、メモリ210は、第1語句の一例である「心房細」を、その情報量25.6に対応付けて記憶し、第2語句の一例である「心房細動」を、その情報量4.4×10−5に対応付けて記憶している。また、メモリ210は、それぞれの語句について合計算出部110により算出した尤度を記憶している。メモリ210には、尤度に代えて、その尤度に基づいて算出された各語句の出現確率が記憶されていてもよい。なお、これらの語句は、ある医学レポートを学習用テキストとして入力して得られたものである。「細動」というのはある業種ではひと続きの意味のある語として用いられるから、その一部である「細」が心臓の部分器官を意味する心房と結びついて「心房細」として語句を構成するのは意味解析上不都合と考えられる。
語句結合部220は、第1語句である「心房細」が第2語句である「心房細動」に含まれ、かつ第1の情報量である25.6よりも第2の情報量である4.4×10−5の方が小さいと判断する。これは、「心房細」よりも「心房細動」が極めて高頻度で分割候補中に現れることを示している。この場合には、語句結合部220は、第1語句である「心房細」をメモリ210から除外する。さらに、語句結合部220は、この「心房細動」の尤度を、「心房細」の尤度および「心房細動」の尤度の合計であるとみなして、あらたに「心房細動」の情報量を算出して、メモリ210に記憶している第2の情報量を更新する。具体的には、「心房細動」の新たな尤度は、「心房細」に対応して記憶されていた尤度Xと、「心房細動」に対応して記憶されていた尤度Yとの合計となる。この尤度に基づいて第2の情報量が再計算される。
このように、語句結合部220によれば、本来ひと続きの語句とするべきだが複数の語句に分割されている語句群を1つの語句群として判断することができる。
図3に戻る。次に、語句分割部230は、本来2つの語句として認識されるべきだが1つの語句として認識されているために2つの語句に分割するべき語句があるかどうかを判断する(S540)。具体的には、語句分割部230は、少なくとも何れか1つの分割候補に含まれる語句のうち、第3語句、第4語句、および、第3語句を示す文字列および第4語句を示す文字列を連結した第5文字列を検索し、第3語句について算出した第3の情報量、および、第4語句について算出した第4の情報量の合計が、第5語句について算出した第5の情報量よりも小さいことを条件に(S550)、メモリ210から第5語句を除外する(S560)。この除外の処理の一例を図7を参照して説明する。
図7は、メモリ210に記憶された語句の第2例を示す。図7において、メモリ210は、第3語句の一例である「先日」を、その情報量13に対応付けて記憶し、第4語句の一例である「細動」を、その情報量7.4に対応付けて記憶し、第5語句の一例である「心室細動」をその情報量32.9に対応付けて記憶している。また、メモリ210は、第3から第5語句のそれぞれに対応付けて、当該語句について合計算出部110により算出された尤度Z、WおよびKを記憶している。「心室」や「細動」という語句は、それ自体で独立した意味を有していると考えられるから、「心室細動」というように互いに結びついた語句として認識されるのは意味解析上不都合と考えられる。
これらの語句について、語句分割部230は、語句「心室」についての第3の情報量である13、および、語句「細堂」についての第4の情報量である7.4の合計である20.4が、「心室」および「細動」の結合である「心室細動」について算出した第5の情報量である32.9よりも小さいと判断する。これは、「心室細動」というひと続きの表記よりも、「心室」や「細動」という表記が独立して出現する頻度が高いことを示している。この場合には、語句分割部230は、第5語句である「心室細動」をメモリ210から除外する。
さらに、語句分割部230は、「心室」の尤度を、「心室」の尤度および「心室細動」の尤度の合計であるとみなして、あらたに「心室」の情報量を算出して、メモリ210に記憶している第3の情報量を更新する。具体的には、「細動」の新たな尤度は、「心室」に対応して記憶されていた尤度Wと、「心室細動」に対応して記憶されていた尤度Zとの合計となる。この尤度に基づいて第3の情報量が再計算される。
語句「細動」についても同様に、語句分割部230は、「細動」の尤度を、「細動」の尤度および「心室細動」の尤度の合計であるとみなして、新たに「細動」の情報量を算出して、メモリ210に記憶している第4の情報量を更新する。具体的には、「細動」の新たな尤度は、「細動」に対応して記憶されていた尤度Kと、「心室細動」に対応して記憶されていた尤度Zとの合計となる。この尤度に基づいて第4の情報量が再計算される。
このように、語句分割部230によれば、意味解析上別個独立の語句とするべきだが1つの語句として認識されている語句を、複数の語句と判断することができる。
図3に戻る。検索部120は、以上の処理によってメモリ210に記憶されている内容が変化したかどうかを判断する(S570)。これは、語句結合部220および語句分割部230による処理が収束したことを意味し、即ち、新規語句を含む語句の組合せから除外又は追加するべき語句が、分割候補生成部100によって生成された分割候補の少なくとも1つに含まれる語句の中から検索されなくなったことを意味する。このような語句が検索されなくなるまで、検索部120はS510に処理を戻して、語句結合部220および語句分割部230による処理を交互に繰り返させる。この際、語句結合部220および語句分割部230は、メモリ210に記憶された、更新後の情報量を用いて語句を追加又は除外するべきか否かを順次判断していく。除外又は追加する語句が検索されなくなったことを条件に(S570:NO)、検索部120は、新規語句を含む語句の組合せを出力する(S580)。
図8は、検索システム10として機能する情報処理装置800のハードウェア構成の一例を示す。情報処理装置800は、ホストコントローラ1082により相互に接続されるCPU1000、RAM1020、及びグラフィックコントローラ1075を有するCPU周辺部と、入出力コントローラ1084によりホストコントローラ1082に接続される通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を有する入出力部と、入出力コントローラ1084に接続されるROM1010、フレキシブルディスクドライブ1050、及び入出力チップ1070を有するレガシー入出力部とを備える。
ホストコントローラ1082は、RAM1020と、高い転送レートでRAM1020をアクセスするCPU1000及びグラフィックコントローラ1075とを接続する。CPU1000は、ROM1010及びRAM1020に格納されたプログラムに基づいて動作し、各部の制御を行う。グラフィックコントローラ1075は、CPU1000等がRAM1020内に設けたフレームバッファ上に生成する画像データを取得し、表示装置1080上に表示させる。これに代えて、グラフィックコントローラ1075は、CPU1000等が生成する画像データを格納するフレームバッファを、内部に含んでもよい。
入出力コントローラ1084は、ホストコントローラ1082と、比較的高速な入出力装置である通信インターフェイス1030、ハードディスクドライブ1040、及びCD−ROMドライブ1060を接続する。通信インターフェイス1030は、ネットワークを介して外部の装置と通信する。ハードディスクドライブ1040は、情報処理装置800が使用するプログラム及びデータを格納する。CD−ROMドライブ1060は、CD−ROM1095からプログラム又はデータを読み取り、RAM1020又はハードディスクドライブ1040に提供する。
また、入出力コントローラ1084には、ROM1010と、フレキシブルディスクドライブ1050や入出力チップ1070等の比較的低速な入出力装置とが接続される。ROM1010は、情報処理装置800の起動時にCPU1000が実行するブートプログラムや、情報処理装置800のハードウェアに依存するプログラム等を格納する。フレキシブルディスクドライブ1050は、フレキシブルディスク1090からプログラム又はデータを読み取り、入出力チップ1070を介してRAM1020またはハードディスクドライブ1040に提供する。入出力チップ1070は、フレキシブルディスク1090や、例えばパラレルポート、シリアルポート、キーボードポート、マウスポート等を介して各種の入出力装置を接続する。
情報処理装置800に提供されるプログラムは、フレキシブルディスク1090、CD−ROM1095、又はICカード等の記録媒体に格納されて利用者によって提供される。プログラムは、入出力チップ1070及び/又は入出力コントローラ1084を介して、記録媒体から読み出され情報処理装置800にインストールされて実行される。プログラムが情報処理装置800等に働きかけて行わせる動作は、図1から図7において説明した検索システム10における動作と同一であるから、説明を省略する。
以上に示したプログラムは、外部の記憶媒体に格納されてもよい。記憶媒体としては、フレキシブルディスク1090、CD−ROM1095の他に、DVDやPD等の光学記録媒体、MD等の光磁気記録媒体、テープ媒体、ICカード等の半導体メモリ等を用いることができる。また、専用通信ネットワークやインターネットに接続されたサーバシステムに設けたハードディスク又はRAM等の記憶装置を記録媒体として使用し、ネットワークを介してプログラムを情報処理装置800に提供してもよい。
以上、本実施形態に係る検索システム10によれば、与えられたテキストを語句に分割する分割装置に対し、新たに辞書登録するべき新規語句を精度良く検索することができる。この際、予め言語の専門家などによって作成され、語句の境界が与えられたテキストは新たに必要とされないので、新規語句の登録に要する費用や時間をこれまでより大幅に削減できる。このような費用や時間の削減は、特定分野の辞書を構築する際に特に有用である。たとえば、標準語の語句分割についての辞書は、標準語については解析の完了したテキストが比較的安価かつ膨大に入手し易いことから、比較的容易に構築することができる。ただし、このような辞書を用いても、特定の技術分野や特定用途のテキストを高精度に語句に分割することは難しい場合がある。一方、このような特定分野については、需要が小さいため費用や時間を多くかけることができず、そもそもテキストの量も小さいため、専門家の解析が完了した充分な量のテキストを準備することが難しい。本実施形態に係る検索システム10は、このような特定分野のテキストについて、比較的小さい費用をもってしても、新規語句を高精度かつ高効率に検索して、語句分割の精度を向上させることができる。
また、本実施形態において対象とする分割装置は、分割結果をその確信度に対応付けて出力する機能を有していれば充分であり、様々な手法を採用した様々な分割装置について新規語句の登録を可能とすることができる。さらには、新規語句の検索は、情報エントロピーの最小化について近似的な手法を採用することで、高速に処理させて現実的な時間で完了させることができる。また、語句の分割は音声合成や音声認識といった様々な技術に応用でき、その分割精度の向上は、音声の認識精度の向上や、合成音声の品質向上を実現することができる。
本実施形態に係る検索システム10を用いて実験した結果、その有用性を示す様々な実験結果が得られた。たとえば、検索システム10によって新規語句を順次登録した辞書は、従来手法によって生成した辞書と比較して、ある実験用の文章を被覆する語彙の割合を大幅に向上できた。即ちこれにより、文章を語句に分割する精度を向上できることが確かめられた。また、検索システム10によって新規語句を順次登録した辞書は、専門家が人手で解析した場合と比較して、1割程度多い数の語句によって、同程度の文章を表記可能な語彙を登録できた。即ちこれにより、誤って検索してしまう新規語句も少なく、検索の精度が高いことが確かめられた。また、実際に、入力テキストの読みを認識するシステム(非特許文献5を参照。)に、本実施形態に係る検索システム10を適用した結果、その認識率も非常に高いことが確かめられた。
以上、本発明を実施の形態を用いて説明したが、本発明の技術的範囲は上記実施の形態に記載の範囲には限定されない。上記実施の形態に、多様な変更または改良を加えることが可能であることが当業者に明らかである。その様な変更または改良を加えた形態も本発明の技術的範囲に含まれ得ることが、特許請求の範囲の記載から明らかである。
図1は、検索システム10の全体構成を示す。 図2は、検索部120の機能構成を示す。 図3は、検索システム10により新規語句を検索する処理の流れを示す。 図4は、確信度算出の処理の一例を示す。 図5は、S320における処理の詳細を示す。 図6は、メモリ210に記憶された語句の第1例を示す。 図7は、メモリ210に記憶された語句の第2例を示す。 図8は、検索システム10として機能する情報処理装置800のハードウェア構成の一例を示す。
符号の説明
10 検索システム
15 分割候補データ
60 分割装置
100 分割候補生成部
110 合計算出部
120 検索部
130 分割学習部
200 情報量算出部
210 メモリ
220 語句結合部
230 語句分割部
600 分割部
610 記憶部
800 情報処理装置

Claims (8)

  1. 入力されるテキストを複数の語句に分割する分割装置が有する辞書に新たに登録すべき語句である新規語句を検索するシステムであって、
    学習用テキストを前記分割装置に入力して語句に分割させることにより、それぞれが前記学習用テキストの分割結果として互いに組合せの異なる語句を含む複数の分割候補のそれぞれを、分割結果の確信度に対応付けて生成する分割候補生成部と、
    語句毎に、当該語句を含むそれぞれの前記分割候補に対応する前記確信度を合計することにより、当該語句が前記新規語句であることの尤度を算出する合計算出部と、
    少なくとも何れか1つの前記分割候補に含まれる語句の組合せのうち、その組合せに属する語句によって前記学習用テキスト全体を表記できる範囲内で、その組合せに属する各語句が対応する前記尤度に応じた頻度で前記学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索して、前記新規語句を含む語句の組合せとして出力する検索部と
    を備えるシステム。
  2. 前記検索部は、
    それぞれの語句が当該語句に対応する前記尤度に応じた頻度で前記学習用テキストに出現するとみなした場合の当該語句の情報量を算出する情報量算出部と、
    少なくとも何れか1つの前記分割候補に含まれる語句のうち、第1語句について算出した第1の前記情報量よりも、前記第1語句を示す文字列を含む第2語句の情報量である第2の前記情報量が小さいことを条件に、前記新規語句を含む語句の組合せから前記第1語句を除外して前記第2語句を追加する語句結合部と、
    少なくとも何れか1つの前記分割候補に含まれる語句のうち、第3語句について算出した第3の前記情報量、および、第4語句について算出した第4の前記情報量の合計が、第3語句を示す文字列および第4語句を示す文字列を連結した第5語句について算出した第5の前記情報量よりも小さいことを条件に、前記新規語句を含む語句の組合せから前記第5語句を除外して前記第3語句および前記第4語句を追加する語句分割部と
    を有する請求項1に記載のシステム。
  3. 前記検索部は、前記新規語句を含む語句の組合せから除外または追加するべき語句が、少なくとも何れか1つの前記分割候補に含まれる語句の中から検索されなくなるまで、前記語句結合部および前記語句分割部による処理を交互に繰り返させ、除外または追加するべき語句が検索されなくなったことを条件に、前記新規語句を含む語句の組合せを出力する請求項2に記載のシステム。
  4. 前記情報量算出部は、各語句について算出した情報量をメモリに記憶し、さらに、
    前記語句結合部により前記第1語句が除外されて前記第2語句が追加されたことを条件に、前記第2語句の尤度を、前記第1語句の尤度および前記第2語句の尤度の合計であるとみなして、前記第2語句の情報量を算出して、メモリに記憶している前記第2の情報量を更新し、さらに、
    前記語句分割部により第5語句が除外され前記第3語句および前記第4語句が追加されたことを条件に、前記第3語句の尤度を、前記第3語句の尤度および前記第5語句の尤度の合計であるとみなし、前記第4語句の尤度を、前記第4語句の尤度および前記第5語句の尤度の合計であるとみなして、前記第3語句および前記第4語句の情報量を算出して、メモリに記憶している前記第3および前記第4の情報量を更新し、
    前記語句結合部および前記語句分割部は、メモリに記憶された、更新された前記情報量を用いて、語句を追加または除外するべきか否かを判断する
    請求項3に記載のシステム。
  5. 前記分割装置は、語句毎に、当該語句と連続して表記される他のそれぞれの語句について、当該語句と当該他の語句とが連続して表記される頻度を示す指標値を記憶している記憶部を有し、当該指標値に基づいて複数の前記分割候補を生成するものであり、
    前記検索部により検索された、前記新規語句を含む語句の組合せに含まれる語句について、当該語句が前記記憶部に既に記憶されている場合には当該語句に対応する前記指標値を増加させ、当該語句が前記記憶部に記憶されていない場合には当該語句を前記記憶部に新たに登録する分割学習部を更に備える請求項1に記載のシステム。
  6. 前記検索部は、少なくとも何れか1つの前記分割候補に含まれる語句の組合せのうち、前記情報エントロピーの値と、その組合せに属する語句の数に応じて増加する予め定められた指標の指標値との合計を最小化する語句の組合せを検索する
    請求項1に記載のシステム。
  7. 入力されるテキストを複数の語句に分割する分割装置が有する辞書に新たに登録すべき語句である新規語句を検索する方法であって、
    学習用テキストを前記分割装置に入力して語句に分割させることにより、それぞれが前記学習用テキストの分割結果として互いに組合せの異なる語句を含む複数の分割候補のそれぞれを、分割結果の確信度に対応付けて生成することと、
    語句毎に、当該語句を含むそれぞれの前記分割候補に対応する前記確信度を合計することにより、当該語句が前記新規語句であることの尤度を算出することと、
    少なくとも何れか1つの前記分割候補に含まれる語句の組合せのうち、その組合せに属する語句によって前記学習用テキスト全体を表記できる範囲内で、その組合せに属する各語句が対応する前記尤度に応じた頻度で前記学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索して、前記新規語句を含む語句の組合せとして出力することと、
    を備える方法。
  8. 入力されるテキストを複数の語句に分割する分割装置が有する辞書に新たに登録すべき語句である新規語句を検索するシステムとして、情報処理装置を機能させるプログラムであって、
    前記情報処理装置を、
    学習用テキストを前記分割装置に入力して語句に分割させることにより、それぞれが前記学習用テキストの分割結果として互いに組合せの異なる語句を含む複数の分割候補のそれぞれを、分割結果の確信度に対応付けて生成する分割候補生成部と、
    語句毎に、当該語句を含むそれぞれの前記分割候補に対応する前記確信度を合計することにより、当該語句が前記新規語句であることの尤度を算出する合計算出部と、
    少なくとも何れか1つの前記分割候補に含まれる語句の組合せのうち、その組合せに属する語句によって前記学習用テキスト全体を表記できる範囲内で、その組合せに属する各語句が対応する前記尤度に応じた頻度で前記学習用テキストに出現するとみなした場合の語句の情報エントロピーを最小化する組合せを検索して、前記新規語句を含む語句の組合せとして出力する検索部と
    して機能させるプログラム。
JP2006338454A 2006-12-15 2006-12-15 音声処理用の辞書に登録するべき新規語句を検索する技術 Expired - Fee Related JP4446313B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2006338454A JP4446313B2 (ja) 2006-12-15 2006-12-15 音声処理用の辞書に登録するべき新規語句を検索する技術
US11/956,574 US8140332B2 (en) 2006-12-15 2007-12-14 Technique for searching out new words that should be registered in dictionary for speech processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006338454A JP4446313B2 (ja) 2006-12-15 2006-12-15 音声処理用の辞書に登録するべき新規語句を検索する技術

Publications (2)

Publication Number Publication Date
JP2008151926A true JP2008151926A (ja) 2008-07-03
JP4446313B2 JP4446313B2 (ja) 2010-04-07

Family

ID=39585190

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006338454A Expired - Fee Related JP4446313B2 (ja) 2006-12-15 2006-12-15 音声処理用の辞書に登録するべき新規語句を検索する技術

Country Status (2)

Country Link
US (1) US8140332B2 (ja)
JP (1) JP4446313B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及系统
CN110069780A (zh) * 2019-04-19 2019-07-30 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法和系统
CN110969009A (zh) * 2019-12-03 2020-04-07 哈尔滨工程大学 一种汉语自然语言文本的词语切分方法

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2007138875A1 (ja) * 2006-05-31 2009-10-01 日本電気株式会社 音声認識用単語辞書・言語モデル作成システム、方法、プログラムおよび音声認識システム
JP4985689B2 (ja) * 2009-03-30 2012-07-25 ブラザー工業株式会社 印刷装置
US9275640B2 (en) * 2009-11-24 2016-03-01 Nexidia Inc. Augmented characterization for speech recognition
US8965751B2 (en) * 2010-11-01 2015-02-24 Microsoft Corporation Providing multi-lingual translation for third party content feed applications
JP2013072974A (ja) * 2011-09-27 2013-04-22 Toshiba Corp 音声認識装置、方法及びプログラム
WO2014050981A1 (ja) * 2012-09-27 2014-04-03 日本電気株式会社 テキスト情報監視用辞書作成装置、テキスト情報監視用辞書作成方法、及び、テキスト情報監視用辞書作成プログラム
CN103020022B (zh) * 2012-11-20 2016-01-27 北京航空航天大学 一种基于改进信息熵特征的中文未登录词识别系统及方法
CN105095322A (zh) * 2014-05-23 2015-11-25 富士通株式会社 人名单元词典扩充方法、人名语言识别方法和装置
KR102413693B1 (ko) * 2015-07-23 2022-06-27 삼성전자주식회사 음성 인식 장치 및 방법, 그를 위한 모델 생성 장치 및 방법
US10140983B2 (en) * 2015-08-28 2018-11-27 International Business Machines Corporation Building of n-gram language model for automatic speech recognition (ASR)
CN106815195A (zh) * 2015-11-27 2017-06-09 方正国际软件(北京)有限公司 一种分词方法及装置、检索方法及装置
CN107092588B (zh) * 2016-02-18 2022-09-09 腾讯科技(深圳)有限公司 一种文本信息处理方法、装置和系统
JP6722483B2 (ja) * 2016-03-23 2020-07-15 クラリオン株式会社 サーバ装置、情報システム、車載装置
CN107391504B (zh) * 2016-05-16 2021-01-29 华为技术有限公司 新词识别方法与装置
US9594741B1 (en) 2016-06-12 2017-03-14 Apple Inc. Learning new words
CN108073566B (zh) * 2016-11-16 2022-01-18 北京搜狗科技发展有限公司 分词方法和装置、用于分词的装置
US9959272B1 (en) * 2017-07-21 2018-05-01 Memsource a.s. Automatic classification and translation of written segments
US10607604B2 (en) * 2017-10-27 2020-03-31 International Business Machines Corporation Method for re-aligning corpus and improving the consistency
US11003854B2 (en) * 2018-10-30 2021-05-11 International Business Machines Corporation Adjusting an operation of a system based on a modified lexical analysis model for a document
US11074317B2 (en) 2018-11-07 2021-07-27 Samsung Electronics Co., Ltd. System and method for cached convolution calculation
CN111597297A (zh) 2019-02-21 2020-08-28 北京京东尚科信息技术有限公司 物品召回方法、系统、电子设备及可读存储介质
CN111476025B (zh) * 2020-02-28 2021-01-08 开普云信息科技股份有限公司 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
US11222165B1 (en) * 2020-08-18 2022-01-11 International Business Machines Corporation Sliding window to detect entities in corpus using natural language processing
CN112185390B (zh) * 2020-09-27 2023-10-03 中国商用飞机有限责任公司北京民用飞机技术研究中心 机上信息辅助方法及装置
WO2022063288A1 (zh) * 2020-09-27 2022-03-31 中国商用飞机有限责任公司北京民用飞机技术研究中心 一种机上信息辅助系统和方法
CN112966501B (zh) * 2021-02-22 2023-04-11 广州寄锦教育科技有限公司 一种新词发现方法、系统、终端及介质
CN114970525B (zh) * 2022-06-14 2023-06-27 城云科技(中国)有限公司 一种文本同事件识别方法、装置及可读存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) * 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
JP2741575B2 (ja) * 1994-09-22 1998-04-22 日本アイ・ビー・エム株式会社 文字認識文字補完方法及びコンピュータ・システム
CN1193779A (zh) * 1997-03-13 1998-09-23 国际商业机器公司 中文语句分词方法及其在中文查错系统中的应用
JPH1153384A (ja) * 1997-08-05 1999-02-26 Mitsubishi Electric Corp キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JP3836607B2 (ja) 1998-09-02 2006-10-25 日本放送協会 音声認識のための統計的言語モデル作成装置
WO2000033211A2 (en) * 1998-11-30 2000-06-08 Koninklijke Philips Electronics N.V. Automatic segmentation of a text
US6363342B2 (en) * 1998-12-18 2002-03-26 Matsushita Electric Industrial Co., Ltd. System for developing word-pronunciation pairs
WO2000062193A1 (en) * 1999-04-08 2000-10-19 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US6626960B1 (en) * 1999-09-01 2003-09-30 International Business Machines Corporation Method, system, and program for generating a table to determine boundaries between characters
US7050977B1 (en) * 1999-11-12 2006-05-23 Phoenix Solutions, Inc. Speech-enabled server for internet website and method
US6678409B1 (en) * 2000-01-14 2004-01-13 Microsoft Corporation Parameterized word segmentation of unsegmented text
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US6973427B2 (en) * 2000-12-26 2005-12-06 Microsoft Corporation Method for adding phonetic descriptions to a speech recognition lexicon
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US7124080B2 (en) * 2001-11-13 2006-10-17 Microsoft Corporation Method and apparatus for adapting a class entity dictionary used with language models
US7092883B1 (en) * 2002-03-29 2006-08-15 At&T Generating confidence scores from word lattices
US7107207B2 (en) * 2002-06-19 2006-09-12 Microsoft Corporation Training machine learning by sequential conditional generalized iterative scaling
US7158930B2 (en) * 2002-08-15 2007-01-02 Microsoft Corporation Method and apparatus for expanding dictionaries during parsing
JP4226942B2 (ja) 2003-04-07 2009-02-18 日本電信電話株式会社 アクセント位置推定方法、装置およびプログラム
US7555428B1 (en) * 2003-08-21 2009-06-30 Google Inc. System and method for identifying compounds through iterative analysis
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same
US7447627B2 (en) * 2003-10-23 2008-11-04 Microsoft Corporation Compound word breaker and spell checker
US7533019B1 (en) * 2003-12-23 2009-05-12 At&T Intellectual Property Ii, L.P. System and method for unsupervised and active learning for automatic speech recognition
US7627567B2 (en) * 2004-04-14 2009-12-01 Microsoft Corporation Segmentation of strings into structured records
US7464024B2 (en) * 2004-04-16 2008-12-09 International Business Machines Corporation Chinese character-based parser
US7783476B2 (en) * 2004-05-05 2010-08-24 Microsoft Corporation Word extraction method and system for use in word-breaking using statistical information
JP4758758B2 (ja) 2005-12-26 2011-08-31 日本放送協会 辞書作成装置および辞書作成プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103593427A (zh) * 2013-11-07 2014-02-19 清华大学 新词搜索方法及系统
CN110069780A (zh) * 2019-04-19 2019-07-30 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法和系统
CN110069780B (zh) * 2019-04-19 2021-11-19 中译语通科技股份有限公司 一种基于特定领域文本的情感词识别方法
CN110969009A (zh) * 2019-12-03 2020-04-07 哈尔滨工程大学 一种汉语自然语言文本的词语切分方法
CN110969009B (zh) * 2019-12-03 2023-10-13 哈尔滨工程大学 一种汉语自然语言文本的词语切分方法

Also Published As

Publication number Publication date
JP4446313B2 (ja) 2010-04-07
US8140332B2 (en) 2012-03-20
US20080162118A1 (en) 2008-07-03

Similar Documents

Publication Publication Date Title
JP4446313B2 (ja) 音声処理用の辞書に登録するべき新規語句を検索する技術
US8065149B2 (en) Unsupervised lexicon acquisition from speech and text
Toselli et al. HMM word graph based keyword spotting in handwritten document images
CN109887497B (zh) 语音识别的建模方法、装置及设备
CN107305768B (zh) 语音交互中的易错字校准方法
CN110033760B (zh) 语音识别的建模方法、装置及设备
Schuster et al. Japanese and korean voice search
US9223779B2 (en) Text segmentation with multiple granularity levels
US8751235B2 (en) Annotating phonemes and accents for text-to-speech system
WO2020001458A1 (zh) 语音识别方法、装置及系统
US6311152B1 (en) System for chinese tokenization and named entity recognition
JP4215418B2 (ja) 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム
JP5318230B2 (ja) 認識辞書作成装置及び音声認識装置
JP5599662B2 (ja) 統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法
Chen Bayesian grammar induction for language modeling
US8954333B2 (en) Apparatus, method, and computer program product for processing input speech
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
KR20140028174A (ko) 음성 인식 방법 및 이를 적용한 전자 장치
JP2004280574A (ja) 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
JP6941494B2 (ja) エンドツーエンド日本語音声認識モデル学習装置およびプログラム
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN113362809B (zh) 语音识别方法、装置和电子设备
KR20230156125A (ko) 룩업 테이블 순환 언어 모델
Qafmolla Automatic language identification
JP2938865B1 (ja) 音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090430

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20090430

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20090820

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091006

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100105

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20100106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100112

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130129

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees