JP2019215660A - 処理プログラム、処理方法および情報処理装置 - Google Patents

処理プログラム、処理方法および情報処理装置 Download PDF

Info

Publication number
JP2019215660A
JP2019215660A JP2018111863A JP2018111863A JP2019215660A JP 2019215660 A JP2019215660 A JP 2019215660A JP 2018111863 A JP2018111863 A JP 2018111863A JP 2018111863 A JP2018111863 A JP 2018111863A JP 2019215660 A JP2019215660 A JP 2019215660A
Authority
JP
Japan
Prior art keywords
word
sentence
text data
specified
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018111863A
Other languages
English (en)
Other versions
JP7180132B2 (ja
Inventor
片岡 正弘
Masahiro Kataoka
正弘 片岡
量 松村
Ryo Matsumura
量 松村
聡 尾上
Satoshi Onoe
聡 尾上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2018111863A priority Critical patent/JP7180132B2/ja
Priority to US16/432,002 priority patent/US11797581B2/en
Publication of JP2019215660A publication Critical patent/JP2019215660A/ja
Priority to JP2022092800A priority patent/JP2022121456A/ja
Application granted granted Critical
Publication of JP7180132B2 publication Critical patent/JP7180132B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】例えば単語HMMやセンテンスHMMなどの統計モデルを生成する処理を高速化すること。【解決手段】情報処理装置100は、テキストデータを受け付け、受け付けたテキストデータに含まれる単語を特定すると、特定した単語に応じた符号を生成するとともに、特定した単語のテキストデータにおける出現位置を該単語に対応付ける情報を生成する。情報処理装置100は、テキストデータに含まれる複数のセンテンスの文ベクトルデータも生成し、生成した符号と、情報と、及び文ベクトルデータとを、受け付けたテキストデータに対応付けて記憶する。【選択図】図2

Description

本発明は、処理プログラム等に関する。
従来、音声認識や仮名漢字変換の精度を向上させるために、単語辞書に登録されている同音異義語の音素や、かな文字を基に、自然文テキストを機械学習することで、単語やセンテンス(sentence)のHMM(Hidden Markov Model)を作成、整備している。このHMMは、ある同音異義語または多義語の文字列を含むセンテンスが入力されると、最も確からしいセンテンスの音声認識、あるいは、変換後の漢字等を推定することができる統計モデルである。以下の説明では、センテンスのHMMをセンテンスHMMと表記する。
ここで、センテンスHMMはセンテンスのベクトルを利用して上記の推定を行うと都合がよい。このため、自然文テキストを用いて機械学習する場合には、自然文テキストを字句解析し、センテンスを構成する各単語のベクトルを積算する処理を行い、センテンスのベクトルを算出する。
単語HMMやセンテンスHMMを生成するためには、同音異義語や多義語を含むセンテンスと近傍のセンテンスを抽出するため、転置インデックスを生成し、かつ、各センテンスのベクトルを生成する必要がある。一般的に、コンピュータで取り扱われる自然文テキストのデータは、ZIP圧縮されているため、転置インデックスを生成する場合には、ZIP圧縮されたテキストを伸長し字句解析が行われる。また、センテンスのベクトルを算出する場合にも、ZIP圧縮されたテキストを伸長し、字句解析が繰り返されることが前提となる。
特開2016−106332号公報 特開2014−146301号公報 特開2017−21523号公報 特開2015−106346号公報
しかしながら、上述した従来技術では、例えば単語HMMやセンテンスHMMなどの統計モデルを生成する処理を高速化することができないという問題がある。
上記のように、単語HMMやセンテンスHMMを生成する場合には、同音異義語や多義語の転置インデックスの生成やセンテンスのベクトルを算出するため、ZIP圧縮されたテキストを伸長し字句解析を繰返すため、高速化を図ることができない。
1つの側面では、本発明は、例えば単語HMMやセンテンスHMMなどの統計モデルを生成する処理を高速化することができる処理プログラム、処理方法および情報処理装置を提供することを目的とする。
第1の案では、コンピュータに次の処理を実行させる。コンピュータは、テキストデータを受け付ける。コンピュータは、受け付けたテキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成する。コンピュータは、テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成する。コンピュータは、生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶する。コンピュータは、符号と、情報と、文ベクトルデータとを出力する。
例えば単語HMMやセンテンスHMMなどの統計モデルを生成する処理を高速化することができる。
図1は、転置インデックスと文ベクトルとを生成する処理の一例を示す図である。 図2は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。 図3は、情報処理装置が転置インデックスおよび文ベクトルを生成する処理のフローチャートである。 図4は、単語HMMおよびセンテンスHMMを生成する処理の一例を示す図である。 図5は、単語HMMデータのデータ構造の一例を示す図である。 図6は、センテンスHMMデータのデータ構造の一例を示す図である。 図7は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。 図8は、情報処理装置が単語HMMデータおよびセンテンスHMMデータを生成する処理のフローチャートである。 図9は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
以下に、本願の開示する処理プログラム、処理方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。
本実施例1に係る情報処理装置は、自然文のテキストデータを基にして、転置インデックスと文ベクトルとを生成する処理を行う。
図1は、転置インデックスと文ベクトルとを生成する処理の一例を示す図である。図1に示すように、情報処理装置のインデックス・ベクトル生成部150bは、自然文のテキストデータ10aを受け付ける。自然文のテキストデータ10aは、青空文庫等の一般的な、テキストデータである。インデックス・ベクトル生成部150bは、生成部の一例である。
インデックス・ベクトル生成部150bは、テキストデータ10aと辞書データ10bとを比較して、テキストデータ10aに含まれる各単語をそれぞれ単語単位で符号化することで、符号化テキストデータ140aを生成する。
辞書データ10bは、静的辞書および動的辞書の情報を保持するデータである。静的辞書は、単語と、静的コードとを対応付けるデータである。動的辞書は、静的辞書に存在しない単語に、動的コードを割り当てる場合に、かかる単語と動的コードとを対応付けたデータを保持する。
たとえば、インデックス・ベクトル生成部150bは、テキストデータ10aと、辞書データ10bとを比較し、テキストデータ10aに含まれる単語のうち、静的辞書の単語にヒットするものは、静的コードに変換する。一方、インデックス・ベクトル生成部150bは、テキストデータ10aに含まれる単語のうち、静的辞書の単語にヒットないものについては、ユニークな動的コードを割り当て、割り当てた動的コードに変換する。インデックス・ベクトル生成部150bは、単語と割り当てた動的コードとを対応付けて、動的辞書に登録する。以下の説明では、静的コードおよび動的コードをまとめて、適宜、「単語コード」と表記する。
インデックス・ベクトル生成部150bは、符号化テキストデータ140aの単語コードの出現位置(オフセット)と、単語コードとを対応付けた転置インデックス140bを生成する。転置インデックス140bは、横軸にオフセットをとり、縦軸に単語コードを取る。オフセットは、符号化テキストデータ140aの先頭の単語コードから、該当する単語コードまでの出現位置を示すものである。先頭の単語コードのオフセットを「0」とする。
また、インデックス・ベクトル生成部150bは、符号化テキストデータ140aのセンテンス毎に、単語ベクトルテーブル10cを参照し、文ベクトルデータ140cを生成する。インデックス・ベクトル生成部150bは、センテンスに含まれる各単語コードの単語ベクトルを、単語ベクトルテーブル10cから取得し、取得した各単語ベクトルを積算することで、センテンスの文ベクトルを生成する。文ベクトルデータ140cは、各センテンスの文ベクトルを格納する。文ベクトルデータ140cは、文ベクトルと、符号化テキストデータ140aのセンテンス(複数の単語コードからなるセンテンス)とを対応付けてもよい。
単語ベクトルテーブル10cは、Word2Vec技術にもとづいて作成されたものであり、複数のベクトル成分から構成される。たとえば、「リンゴ」の単語ベクトルは、単語「赤い」「甘い」「寒い」などと共起するため、「赤い」「甘い」「寒い」などの成分の値が大きくなる傾向がある。単語ベクトルテーブル10cは、単語コードと、単語コードに対応する単語ベクトルとを対応付ける。
インデックス・ベクトル生成部150bは、符号化テキストデータ140aと、転置インデックス140bと、文ベクトルデータ140cとを対応付けて、記憶部に記憶してもよい。
上記のように、本実施例1に係る情報処理装置は、テキストデータ10aに含まれる各単語を符号化する場合に、単語コードと単語コードの出現位置とを対応付けた転置インデックス140bを生成する。この転置インデックス140bを用いることで、各単語コードと単語コードの位置との関係を容易に特定することができるので、単語コードを用いる各種の処理(たとえば、単語HMMを生成する処理等)を高速化することができる。また、各センテンスの文ベクトルデータ140cを合わせて生成しておくことで、センテンスHMMを生成する処理を高速化することもできる。
図2は、本実施例1に係る情報処理装置の構成を示す機能ブロック図である。図2に示すように、この情報処理装置100は、通信部110、入力部120、表示部130、記憶部140、制御部150を有する。
通信部110は、ネットワークを介して、外部装置とデータ通信を実行する処理部である。通信部110は、通信装置の一例である。情報処理装置100は、通信部110を利用し、ネットワークを介して、外部装置からテキストデータ10a等を受信してもよい。
入力部120は、情報処理装置100に各種のデータを入力するための入力装置である。たとえば、入力部120は、キーボードやマウス、タッチパネル等に対応する。
表示部130は、制御部150から出力される各種のデータを表示するための表示装置である。たとえば、表示部130は、液晶ディスプレイやタッチパネル等に対応する。
記憶部140は、テキストデータ10a、辞書データ10b、単語ベクトルテーブル10c、符号化テキストデータ140a、転置インデックス140b、文ベクトルデータ140cを有する。記憶部140は、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)などの半導体メモリ素子や、HDD(Hard Disk Drive)などの記憶装置に対応する。
テキストデータ10aは、青空文庫等の一般的なテキストのデータである。
辞書データ10bは、静的辞書および動的辞書の情報を保持するデータである。静的辞書は、単語と、静的コードとを対応付けるデータである。動的辞書は、静的辞書に存在しない単語に、ユニークな動的コードを割り当てる場合に、かかる単語と動的コードとを対応付けたデータを保持する。
単語ベクトルテーブル10cは、単語コードと、単語コードに対応する単語ベクトルの情報を保持するテーブルである。
符号化テキストデータ140aは、辞書データ10bに基づいて符号化されたテキストデータである。符号化テキストデータ140aは、テキストデータ10aに含まれる単語毎に符号化されている。
転置インデックス140bは、符号化テキストデータ140aの単語コードの出現位置(オフセット)と、単語コードとを対応付けた情報である。図1等で説明したように、転置インデックス140bは、横軸にオフセットをとり、縦軸に単語コードをとる。符号化テキストデータ140aの先頭の単語コードのオフセットを「0」とする。たとえば、符号化テキストデータ140aの先頭の単語コードから3番目の単語コードが「A03」である場合には、転置インデックス140bのオフセット「2」の列と、単語コード「A03」の行とが交わる位置に、フラグ「1」が立つ。
文ベクトルデータ140cは、テキストデータ10aに含まれる各センテンスの文ベクトルを保持する情報である。
制御部150は、受付部150a、インデックス・ベクトル生成部150bを有する。制御部150は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)などによって実現できる。また、制御部150は、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などのハードワイヤードロジックによっても実現できる。
受付部150aは、ネットワークを介して外部装置からテキストデータ10aを受け付ける処理部である。受付部150aは、受け付けたテキストデータ10aを、記憶部140に格納する。
インデックス・ベクトル生成部150bは、図1で説明した処理を実行することで、転置インデックス140bおよび文ベクトルデータ140cを生成する処理部である。まず、インデックス・ベクトル生成部150bが、転置インデックス140bを生成する処理の一例について説明する。
インデックス・ベクトル生成部150bは、テキストデータ10aと、辞書データ10bとを比較して、テキストデータ10aに含まれる各単語をそれぞれ単語単位で符号化することで、符号化テキストデータ140aを生成する。インデックス・ベクトル生成部150bは、テキストデータ10aに含まれる句点、ピリオド等を基にして、各センテンスを特定しておくものとする。
たとえば、インデックス・ベクトル生成部150bは、テキストデータ10aと、辞書データ10bとを比較し、テキストデータ10aに含まれる単語のうち、静的辞書の単語にヒットするものは、静的コード(単語コード)に変換する。
インデックス・ベクトル生成部150bは、テキストデータ10aに含まれる単語のうち、静的辞書の単語にヒットないものについては、動的コードを割り当て、割り当てた動的コードに変換する。インデックス・ベクトル生成部150bは、単語(静的辞書に存在しない単語)と割り当てた動的コード(単語コード)とを対応付けて、動的辞書に登録する。
インデックス・ベクトル生成部150bは、符号化テキストデータ140aの単語コード毎に、単語コードの出現位置(オフセット)と、単語コードとを対応付けることで転置インデックス140bを生成する。転置インデックス140bは、横軸にオフセットをとり、縦軸に単語コードを取る。オフセットは、符号化テキストデータ140aの先頭の単語コードから、該当する単語コードまでの出現位置を示すものである。先頭の単語コードのオフセットを「0」とする。
続いて、インデックス・ベクトル生成部150bが、文ベクトルデータを生成する処理の一例について説明する。インデックス・ベクトル生成部150bは、符号化テキストデータ140aのセンテンスに含まれる各単語コードの単語ベクトルをそれぞれ算出する。たとえば、インデックス・ベクトル生成部150bは、単語コードと、単語ベクトルテーブル10cとを比較して、センテンスに含まれる各単語コードの単語ベクトルを特定する。インデックス・ベクトル生成部150bは、センテンスに含まれる各単語コードの単語ベクトルを積算することで、センテンスの文ベクトルを算出する。インデックス・ベクトル生成部150bは、センテンス毎の文ベクトルを算出し、算出した文ベクトルの情報を、文ベクトルデータ140cに登録する。
インデックス・ベクトル生成部150bは、符号化テキストデータ140a、転置インデックス140b、文ベクトルデータ140cを対応付けて、記憶部140に格納する。また、インデックス・ベクトル生成部150bは、符号化テキストデータ140a、転置インデックス140b、文ベクトルデータ140cを対応付けたファイル情報を、外部装置に出力してもよい。
次に、情報処理装置100の処理手順の一例について説明する。図3は、転置インデックスおよび文ベクトルデータを生成する処理のフローチャートである。図3に示すように、情報処理装置100の受付部150aは、テキストデータ10aを受け付ける(ステップS101)。情報処理装置100のインデックス・ベクトル生成部150bは、テキストデータ10aの各単語を単語単位で符号化して、符号化テキストデータ140aを生成する(ステップS102)。
インデックス・ベクトル生成部150bは、単語コード毎に、単語コードと出現位置とを対応付けて転置インデックス140bを生成する(ステップS103)。インデックス・ベクトル生成部150bは、センテンス毎に単語ベクトルを積算し、文ベクトルを生成することで、文ベクトルデータ140cを生成する(ステップS104)。
インデックス・ベクトル生成部150bは、符号化テキストデータ140a、転置インデックス140b、文ベクトルデータ140cを対応付けて、記憶部140に保存する(ステップS105)。
次に、本実施例に係る情報処理装置100の効果について説明する。情報処理装置100は、テキストデータ10aに含まれる単語を特定すると、単語に応じた単語コードおよび出現位置を対応付けた転置インデックス140bを生成する。また、情報処理装置100は、センテンス毎に単語ベクトルを積算することで、文ベクトルデータ140cを生成する。この転置インデックス140bを用いることで、各単語コードと単語コードの位置との関係を容易に特定することができるので、単語コードを用いる各種の処理(たとえば、単語HMMを生成する処理等)を高速化することができる。また、各センテンスの文ベクトルデータ140cを合わせて生成しておくことで、センテンスHMMを生成する処理を高速化することもできる。
本実施例2に係る情報処理装置は、本実施例1で生成された符号化テキストデータ140a、転置インデックス140b、文ベクトルデータ140cを用いて、単語HMMおよびセンテンスHMMを生成する。
図4は、単語HMMおよびセンテンスHMMを生成する処理の一例を示す図である。情報処理装置は、「同音異義語」の単語コードを特定する。たとえば、実施例1で説明した辞書データ10bには、単語コードが同音異義語(同音素異義語、同かな異義語)であるか否かの情報が含まれており、情報処理装置は、係る辞書データを基にして同音異義語の単語コードを特定する。
たとえば、「夢が叶う」の「叶う」、「道理に適う」の「適う」、「強い相手に敵う」の「敵う」の仮名表記はいずれも「かなう」であるが、語義がそれぞれ異なる。このため、「叶う」、「適う」、「敵う」は、それぞれ同音異義語である。
情報処理装置は、同音異義語の単語コードと、転置インデックス140bとを比較することで、符号化テキストデータ140a上の、同音異義語の単語コードの出現位置を特定する。たとえば、単語コード「A15」が、同音異義語の単語コードとすると、転置インデックス140bにより、単語コード「A15」の出現位置は、先頭から「14」の位置となる。
ここで、情報処理装置は、同音異義語の単語コードと同一のセンテンスに含まれる各単語コードを特定する。情報処理装置は、符号化テキストデータ140aに含まれる各単語コードを、同一のセンテンスに含まれる単語コード毎に分類しておいてもよいし、句点、ピリオドを含む単語コードをキーにして、同音異義語の単語コードと同一のセンテンスに含まれる各単語コードを特定してもよい。
たとえば、同音異義語となる単語の単語コードを「A15」とし、同音異義語と同一のセンテンスに含まれる各単語コードを「A14、A16、A17」とする。以下の説明では適宜、同音異義語を含むセンテンスを、「対象センテンス」と表記する。
情報処理装置は、対象センテンスに含まれる各単語コード「A14、A16、A17」と、単語ベクトルテーブル10cとを比較して、同音異義語の単語コード「A15」と共起する各単語コード「A14、A16、A17」の各単語ベクトルを特定する。情報処理装置は、対象センテンスに含まれる各単語コードの単語ベクトルを、同音異義語の単語コードと共起する単語コードの単語ベクトルとして特定する。情報処理装置は、特定した結果を基にして、単語HMMデータ240aを生成する。
なお、図4に示す例では、同音異義語となる単語の単語コード「A15」を、符号化テキストデータ140aに一箇所示したが、これに限定されるものでは無く、複数箇所に存在するものとする。このため、単語コードを「A15」を含む対象センテンスは、符号化テキストデータ140aから複数特定され、各対象センテンスの単語コードの単語ベクトルを用いて、単語HMMデータ240aが生成される。
情報処理装置は、同一の同音異義語「叶う」の単語コードを含む複数の対象センテンスそれぞれについて、対象センテンスの各単語ベクトルを特定することで、「叶う」と共起する単語の単語ベクトルを特定する。これにより、「叶う」の単語コードと共起する他の単語の単語コードとの関係(たとえば、共起率)を特定することができる。
図5は、単語HMMのデータ構造の一例を示す図である。図5に示すように、この単語HMMは、単語ベクトルと、共起単語ベクトルとを対応付ける。単語ベクトルは、同音異義語の単語ベクトルを示すものである。共起単語ベクトルは、同音異義語の前後に共起する単語の単語ベクトルおよび共起率を示す。たとえば、図5では、単語コード「A025」の同音異義語は、共起単語ベクトル「Dα108F97」の単語と共起する確率が「37%」である旨が示される。また、単語コード「A025」の同音異義語は、共起単語ベクトル「Dα108F19」の単語と共起する確率が「29%」である旨が示される。
一方、情報処理装置は、同音異義語を含む対象センテンスの文ベクトルと、かかる対象センテンスの近傍(たとえば、前後)で共起するセンテンスの文ベクトルの関係を特定することで、センテンスHMMデータ240bを生成する。情報処理装置は、対象センテンスの前後のセンテンスの文ベクトルを、文ベクトルデータ140cから取得する。図4に示す例では、対象センテンスの前後のセンテンスの文ベクトルとして「SV02、SV03」が抽出されている。
図6は、センテンスHMMデータのデータ構造の一例を示す図である。図6に示すように、このセンテンスHMMデータ240bは、文ベクトルと、共起文ベクトルとを対応付ける。文ベクトルは、同音異義語を含む対象センテンスの文ベクトルを示すものである。共起文ベクトルは、対象センテンスの前後に共起するセンテンスの文ベクトルを示すものである。たとえば、文ベクトル「SV15」の対象センテンスは、共起文ベクトル「Dβ108F97」のセンテンスと共起する確率が「34%」である旨が示される。文ベクトル「SV15」の対象センテンスは、共起文ベクトル「Dβ108F19」のセンテンスと共起する確率が「19%」である旨が示される。
なお、情報処理装置は、同一の同音異義語を含む各対象センテンスの文ベクトルを、各対象センテンスの各文ベクトルを平均化することで、統合する。
上記のように、本実施例2に係る情報処理装置は、同音異義語の単語コードと、転置インデックス140bとを基にして、同音異義語の単語コードと共起する単語コードを特定する。情報処理装置は、各単語コードに対応する単語ベクトルを、単語ベクトルテーブル10cから取得する。これにより、自然文テキストから同音異義語や多義語に対する単語HMMデータ240aを高速に生成することができる。
また、情報処理装置は、対象センテンスに含まれる単語コードの位置を、転置インデックス140bを基にして特定し、対象センテンスと共起するセンテンスの文ベクトルを、文ベクトルデータ140cから取得する。これにより、自然文テキストから同音異義語や多義語に対するセンテンスHMMデータ240bを高速に生成することができる。
図7は、本実施例2に係る情報処理装置の構成を示す機能ブロック図である。図7に示すように、この情報処理装置200は、通信部210、入力部220、表示部230、記憶部240、制御部250を有する。
通信部210は、ネットワークを介して、外部装置とデータ通信を実行する処理部である。通信部210は、通信装置の一例である。情報処理装置200は、通信部210を利用し、ネットワークを介して、外部装置からテキストデータ10a等を受信してもよい。また、通信部210は、実施例1で説明した、情報処理装置100とデータ通信を行い、符号化テキストデータ140a、転置インデックス140b、文ベクトルデータを取得してもよい。
入力部220は、情報処理装置200に各種のデータを入力するための入力装置である。たとえば、入力部220は、キーボードやマウス、タッチパネル等に対応する。
表示部230は、制御部250から出力される各種のデータを表示するための表示装置である。たとえば、表示部230は、液晶ディスプレイやタッチパネル等に対応する。
記憶部240は、テキストデータ10a、辞書データ10b、単語ベクトルテーブル10c、符号化テキストデータ140a、転置インデックス140b、文ベクトルデータ140cを有する。また、記憶部240は、単語HMMデータ240a、センテンスHMMデータ240bを有する。記憶部240は、RAM、ROM、フラッシュメモリなどの半導体メモリ素子や、HDDなどの記憶装置に対応する。
テキストデータ10a、辞書データ10b、単語ベクトルテーブル10c、符号化テキストデータ140a、転置インデックス140b、文ベクトルデータ140cに関する説明は、図2で説明した各データの説明と同様であるため、説明を省略する。
単語HMMデータ240aは、同音異義語の単語ベクトルと、同音異義語と共起する単語の単語ベクトルおよび共起率とを対応付けるデータである。単語HMMデータ240aのデータ構造は、図5で説明した単語HMMデータ240aのデータ構造に対応する。
センテンスHMMデータ240bは、同音異義語を含む対象センテンスの文ベクトルと、この対象センテンスと共起するセンテンスの文ベクトルおよび共起率とを対応付けるデータである。センテンスHMMデータ240bのデータ構造は、図6で説明したセンテンスHMMデータ240bのデータ構造に対応する。
制御部250は、受付部150a、インデックス・ベクトル生成部150b、HMM生成部250aを有する。制御部250は、CPUやMPUなどによって実現できる。また、制御部250は、ASICやFPGAなどのハードワイヤードロジックによっても実現できる。
受付部150aおよびインデックス・ベクトル生成部150bの処理の説明は、図2で説明した、受付部150aおよびインデックス・ベクトル生成部150bの処理の説明と同様である。なお、情報処理装置200は、実施例1で説明した情報処理装置100から、符号化テキストデータ140a、転置インデックス140b、文ベクトルデータ140cを取得して利用する場合には、受付部150a、インデックス・ベクトル生成部150bを有していなくてもよい。
HMM生成部250aは、図4等で説明した処理を実行することで、単語HMMデータ240a、センテンスHMMデータ240bを生成する処理部である。
HMM生成部250aが、単語HMMデータ240aを生成する処理の一例について説明する。HMM生成部250aは、辞書データ10bを参照して、同音異義語の単語コードを特定する。HMM生成部250aは、同音異義語の単語コードと、転置インデックス140bとを比較することで、符号化テキストデータ140a上の、同音異義語の単語コードの出現位置を特定する。
HMM生成部250aは、符号化テキストデータ140a上の、同音異義語の単語コードの出現位置を特定すると、同音異義語の単語コードと同一のセンテンス(対象センテンス)に含まれる各単語コードを特定する。HMM生成部250aは、符号化テキストデータ140aに含まれる各単語コードを、同一のセンテンスに含まれる単語コード毎に分類しておいてもよいし、句点、ピリオドを含む単語コードをキーにして、同音異義語の単語コードと同一のセンテンスに含まれる各単語コードを特定してもよい。
HMM生成部250aは、対象センテンスに含まれる各単語コードと、単語ベクトルテーブルとを比較して、対象センテンスに含まれる各単語コードの単語ベクトルを特定する。HMM生成部250aは、対象センテンスに含まれる各単語コードの単語ベクトルを、同音異義語の単語コードと共起する単語コードの単語ベクトルとして特定する。情報処理装置は、特定した単語ベクトルの共起率を基にして、単語HMMデータ240aを生成する。
HMM生成部250aは、同一の同音異義語の単語コードを含む他の対象センテンスについても、対象センテンスに含まれる各単語コードを取得する。HMM生成部250aは、上記処理を実行することで、同音異義語の単語コードと、この単語コードと共起する単語コードおよび共起率を算出し、単語HMMデータ240aを生成する。
HMM生成部250aは、他の同音異義語の単語コードに対しても、上記処理を実行することで、同音異義語の単語コードと共起する単語コードの共起率を算出し、単語HMMデータ240aに登録する。
続いて、HMM生成部250aが、センテンスHMMデータ240bを生成する処理の一例について説明する。HMM生成部250aは、同音異義語の単語コードと、転置インデックス140bとを比較して、対象センテンスと特定する。また、HMM生成部250aは、対象センテンスの前後のセンテンスを特定する。
HMM生成部250aは、対象センテンスおよびこの対象センテンスの前後のセンテンスと、文ベクトルデータ140cとを比較することで、各センテンスの文ベクトルを特定する。HMM生成部250aは、同一の同音異義語を含む他の対象センテンスおよび前後のセンテンスにいても、文ベクトルデータ140cと比較することで、各センテンスの文ベクトルを特定する。
HMM生成部250aは、対象センテンスの文ベクトルの前後で共起するセンテンスの文ベクトルの共起率を算出する。HMM生成部250aは、対象センテンスの文ベクトルと、前後で共起する文ベクトルおよび共起率とを対応付けることで、センテンスHMMデータ240bを生成する。なお、同一の同音異義語を含む各対象センテンスの文ベクトルは同一ではないため、各対象センテンスの各文ベクトルを平均化したものを、対象センテンスの文ベクトルとしてもよい。HMM生成部250aは、各対象センテンスの各文ベクトルのうち、何れか一つを代表ベクトルとして選択し、対象センテンスの文ベクトルとしてもよい。
次に、本実施例2に係る情報処理装置200の処理手順の一例について説明する。図8は、情報処理装置が単語HMMデータおよびセンテンスHMMデータを生成する処理のフローチャートである。図8に示すように、情報処理装置200のHMM生成部250aは、同音異義語に対応する単語コードと転置インデックス140bとを比較し、符号化テキストデータ140aの対象センテンスを特定する(ステップS201)。
HMM生成部250aは、対象センテンスに含まれる、同音異義語の単語コード(単語コードの単語ベクトル)と共起する単語コード(単語コードの単語ベクトル)を特定する(ステップS202)。
HMM生成部250aは、同音異義語の単語コード(単語コードの単語ベクトル)と共起する他の単語コー(単語コードの単語ベクトル)ドとの関係から、単語HMMデータを生成する(ステップS203)。HMM生成部250aは、単語HMMデータを保存する(ステップS204)。
HMM生成部250aは、対象センテンスに含まれる同音異義語の単語コードと、対象センテンスに隣接するセンテンスの文ベクトルとの関係から、センテンスHMMデータ240bを生成する(ステップS205)。HMM生成部250aは、センテンスHMMデータを保存する(ステップS206)。
次に、本実施例2に係る情報処理装置200の効果について説明する。情報処理装置200は、同音異義語の単語コードと、転置インデックス140bとを基にして、同音異義語の単語コードと共起する単語コードを特定する。情報処理装置は、各単語コードに対応する単語ベクトルを、単語ベクトルテーブル10cから取得する。これにより、自然文テキストから同音異義語や多義語に対する単語HMMデータ240aを高速に生成することができる。
また、情報処理装置は、対象センテンスに含まれる単語コードの位置を、転置インデックス140bを基にして特定し、対象センテンスと共起するセンテンスの文ベクトルを、文ベクトルデータ140cから取得する。これにより、自然文テキストから同音異義語や多義語に対するセンテンスHMMデータ240bを高速に生成することができる。
次に、上記実施例に示した情報処理装置100,200と同様の機能を実現するコンピュータのハードウェア構成の一例について説明する。図9は、情報処理装置と同様の機能を実現するコンピュータのハードウェア構成の一例を示す図である。
図9に示すように、コンピュータ300は、各種演算処理を実行するCPU301と、ユーザからのデータの入力を受け付ける入力装置302と、ディスプレイ303とを有する。また、コンピュータ300は、記憶媒体からプログラム等を読み取る読み取り装置304と、有線または無線ネットワークを介して収録機器等との間でデータの授受を行うインタフェース装置305とを有する。また、コンピュータ300は、各種情報を一時記憶するRAM306と、ハードディスク装置307とを有する。そして、各装置301〜307は、バス308に接続される。
ハードディスク装置307は、受付プログラム307a、インデックス・ベクトル生成プログラム307b、HMM生成プログラム307cを有する。また、ハードディスク装置307は、各プログラム307a〜307cを読み出してRAM306に展開する。
受付プログラム307aは、受付プロセス306aとして機能する。インデックス・生成プログラム307bは、インデックス・ベクトル生成プロセス306bとして機能する。HMM生成プログラム307cは、HMM生成プロセス306cとして機能する。
受付プロセス206aの処理は、受付部150aの処理に対応する。インデックス・ベクトル生成プロセス206bの処理は、インデックス・ベクトル生成部150bの処理に対応する。HMM生成プロセス306cの処理は、HMM生成部250aの処理に対応する。
なお、各プログラム307a〜307cについては、必ずしも最初からハードディスク装置307に記憶させておかなくても良い。例えば、コンピュータ300に挿入されるフレキシブルディスク(FD)、CD−ROM、DVD、光磁気ディスク、ICカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ300が各プログラム307a〜307cを読み出して実行するようにしても良い。
以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、
前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、
生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、
前記符号と、前記情報と、前記文ベクトルデータとを出力する
処理をコンピュータに実行させることを特徴とする処理プログラム。
(付記2)前記情報を生成する処理は、前記テキストデータに含まれる各単語を符号化することで、符号化テキストデータを生成し、前記符号化テキストデータに含まれる単語の符号と、符号の出現位置とを対応付けた転置インデックスを生成することを特徴とする付記1に記載の処理プログラム。
(付記3)基準を満たす単語の符号と、前記転置インデックスとを基にして、前記符号化テキストデータについて、前記基準を満たす単語の符号の出現位置を特定する処理を更に実行することを特徴とする付記2に記載の処理プログラム。
(付記4)前記基準を満たす単語の符号と、前記転置インデックスと、前記文ベクトルデータとを基にして、前記基準を満たす単語に関する文ベクトルを特定する処理を更に実行することを特徴とする付記3に記載の処理プログラム。
(付記5)テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、
受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、
生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する、
処理をコンピュータに実行させることを特徴とする処理プログラム。
(付記6)テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、
特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する、
処理をコンピュータに実行させることを特徴とする処理プログラム。
(付記7)テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、
特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する、
処理をコンピュータに実行させることを特徴とする処理プログラム。
(付記8)コンピュータが実行する処理方法であって、
テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、
前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、
生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、
前記符号と、前記情報と、前記文ベクトルデータとを出力する
処理を実行することを特徴とする処理方法。
(付記9)前記情報を生成する処理は、前記テキストデータに含まれる各単語を符号化することで、符号化テキストデータを生成し、前記符号化テキストデータに含まれる単語の符号と、符号の出現位置とを対応付けた転置インデックスを生成することを特徴とする付記8に記載の処理方法。
(付記10)基準を満たす単語の符号と、前記転置インデックスとを基にして、前記符号化テキストデータについて、前記基準を満たす単語の符号の出現位置を特定する処理を更に実行することを特徴とする付記9に記載の処理方法。
(付記11)前記基準を満たす単語の符号と、前記転置インデックスと、前記文ベクトルデータとを基にして、前記基準を満たす単語に関する文ベクトルを特定する処理を更に実行することを特徴とする付記10に記載の処理方法。
(付記12)コンピュータが実行する処理方法であって、
テキストデータを受け付け、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、
受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、
生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する、
処理を実行することを特徴とする処理方法。
(付記13)コンピュータが実行する処理方法であって、
テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、
特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する、
処理を実行することを特徴とする処理方法。
(付記14)コンピュータが実行する処理方法であって、
テキストデータを受け付け、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、
特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する、
処理をコンピュータに実行させることを特徴とする処理方法。
(付記15)テキストデータを受け付ける受付部と、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、前記符号と、前記情報と、前記文ベクトルデータとを出力する生成部と
を有することを特徴とする情報処理装置。
(付記16)前記生成部は、前記テキストデータに含まれる各単語を符号化することで、符号化テキストデータを生成し、前記符号化テキストデータに含まれる単語の符号と、符号の出現位置とを対応付けた転置インデックスを生成することを特徴とする付記15に記載の情報処理装置。
(付記17)基準を満たす単語の符号と、前記転置インデックスとを基にして、前記符号化テキストデータについて、前記基準を満たす単語の符号の出現位置を特定する特定部を更に実行することを特徴とする付記16に記載の情報処理装置。
(付記18)前記特定部は、前記基準を満たす単語の符号と、前記転置インデックスと、前記文ベクトルデータとを基にして、前記基準を満たす単語に関する文ベクトルを特定する処理を更に実行することを特徴とする付記17に記載の情報処理装置。
(付記19)テキストデータを受け付ける受付部と、
受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する生成部と
を有することを特徴とする情報処理装置。
(付記20)テキストデータを受け付ける受付部と、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する第1特定部と
を有することを特徴とする情報処理装置。
(付記21)テキストデータを受け付ける受付部と、
辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する生成部と
を有することを特徴とする情報処理装置。
10a テキストデータ
10b 辞書データ
10c 単語ベクトルテーブル
100,200 情報処理装置
110 通信部
120 入力部
130 表示部
140 記憶部
140a 符号化テキストデータ
140b 転置インデックス
140c 文ベクトルデータ
150 制御部
150a 受付部
150b インデックス・ベクトル生成部
240a 単語HMMデータ
240b センテンスHMMデータ
250a HMM生成部

Claims (15)

  1. テキストデータを受け付け、
    受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、
    前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、
    生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、
    前記符号と、前記情報と、前記文ベクトルデータとを出力する
    処理をコンピュータに実行させることを特徴とする処理プログラム。
  2. 前記情報を生成する処理は、前記テキストデータに含まれる各単語を符号化することで、符号化テキストデータを生成し、前記符号化テキストデータに含まれる単語の符号と、符号の出現位置とを対応付けた転置インデックスを生成することを特徴とする請求項1に記載の処理プログラム。
  3. 基準を満たす単語の符号と、前記転置インデックスとを基にして、前記符号化テキストデータについて、前記基準を満たす単語の符号の出現位置を特定する処理を更に実行することを特徴とする請求項2に記載の処理プログラム。
  4. 前記基準を満たす単語の符号と、前記転置インデックスと、前記文ベクトルデータとを基にして、前記基準を満たす単語に関する文ベクトルを特定する処理を更に実行することを特徴とする請求項3に記載の処理プログラム。
  5. テキストデータを受け付け、
    受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、
    受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、
    生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する、
    処理をコンピュータに実行させることを特徴とする処理プログラム。
  6. テキストデータを受け付け、
    辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
    受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、
    特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する、
    処理をコンピュータに実行させることを特徴とする処理プログラム。
  7. テキストデータを受け付け、
    辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
    受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、
    特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する、
    処理をコンピュータに実行させることを特徴とする処理プログラム。
  8. コンピュータが実行する処理方法であって、
    テキストデータを受け付け、
    受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、
    前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、
    生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、
    前記符号と、前記情報と、前記文ベクトルデータとを出力する
    処理を実行することを特徴とする処理方法。
  9. コンピュータが実行する処理方法であって、
    テキストデータを受け付け、
    受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、
    受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、
    生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する、
    処理を実行することを特徴とする処理方法。
  10. コンピュータが実行する処理方法であって、
    テキストデータを受け付け、
    辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
    受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、
    特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する、
    処理を実行することを特徴とする処理方法。
  11. コンピュータが実行する処理方法であって、
    テキストデータを受け付け、
    辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、
    受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、
    特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する、
    処理をコンピュータに実行させることを特徴とする処理方法。
  12. テキストデータを受け付ける受付部と、
    受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号を生成するとともに、特定した前記単語の前記テキストデータにおける出現位置を該単語に対応付ける情報を生成し、前記テキストデータに含まれる複数のセンテンスの文ベクトルデータを生成し、生成した前記符号と、前記情報と、前記文ベクトルデータとを、受け付けた前記テキストデータに対応付けて記憶し、前記符号と、前記情報と、前記文ベクトルデータとを出力する生成部と
    を有することを特徴とする情報処理装置。
  13. テキストデータを受け付ける受付部と、
    受け付けた前記テキストデータに含まれる単語を特定すると、特定した前記単語に応じた符号及び単語ベクトルを生成し、受け付けた前記テキストデータのセンテンスに含まれる単語のうち、基準を満たす単語に応じた単語ベクトルが生成されると、生成した前記単語ベクトルに基づき、前記センテンスに応じた文ベクトルを生成し、生成した前記符号及び文ベクトルを、受け付けた前記テキストデータに対応付けて記憶する生成部と
    を有することを特徴とする情報処理装置。
  14. テキストデータを受け付ける受付部と、
    辞書データを記憶する記憶部を参照して、前記辞書データに含まれ単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、受け付けたテキストデータに含まれる単語の前記テキストデータにおける出現位置を該単語に対応付けて記憶する記憶部を参照して、特定した前記単語の前記テキストデータにおける出現位置を特定し、特定した前記出現位置に基づき、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスを特定する第1特定部と
    を有することを特徴とする情報処理装置。
  15. テキストデータを受け付ける受付部と、
    辞書データを記憶する記憶部を参照して、前記辞書データに含まれる単語のうち、音素表記又は仮名表記が等しく、かつ、語義が異なる他の単語が存在する単語を特定し、受け付けた前記テキストデータに、特定した前記単語が含まれる場合、前記テキストデータに含まれるセンテンスのうち、特定した前記単語を含むセンテンスに対して特定関係を有する位置に出現するセンテンスを特定し、特定した前記センテンスに基づき、特定した前記センテンスに応じたベクトル情報と、特定した前記単語を含む前記センテンスに対して前記特定関係を有する位置に、該ベクトル情報に応じたセンテンスが出現する頻度情報とを、特定した前記単語に対応付ける情報を生成する生成部と
    を有することを特徴とする情報処理装置。
JP2018111863A 2018-06-12 2018-06-12 処理プログラム、処理方法および情報処理装置 Active JP7180132B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018111863A JP7180132B2 (ja) 2018-06-12 2018-06-12 処理プログラム、処理方法および情報処理装置
US16/432,002 US11797581B2 (en) 2018-06-12 2019-06-05 Text processing method and text processing apparatus for generating statistical model
JP2022092800A JP2022121456A (ja) 2018-06-12 2022-06-08 処理プログラム、処理方法および情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018111863A JP7180132B2 (ja) 2018-06-12 2018-06-12 処理プログラム、処理方法および情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022092800A Division JP2022121456A (ja) 2018-06-12 2022-06-08 処理プログラム、処理方法および情報処理装置

Publications (2)

Publication Number Publication Date
JP2019215660A true JP2019215660A (ja) 2019-12-19
JP7180132B2 JP7180132B2 (ja) 2022-11-30

Family

ID=68764590

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018111863A Active JP7180132B2 (ja) 2018-06-12 2018-06-12 処理プログラム、処理方法および情報処理装置
JP2022092800A Pending JP2022121456A (ja) 2018-06-12 2022-06-08 処理プログラム、処理方法および情報処理装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022092800A Pending JP2022121456A (ja) 2018-06-12 2022-06-08 処理プログラム、処理方法および情報処理装置

Country Status (2)

Country Link
US (1) US11797581B2 (ja)
JP (2) JP7180132B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11620448B2 (en) 2020-08-31 2023-04-04 Recruit Co., Ltd. Systems and methods for enhanced review comprehension using domain-specific knowledgebases

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008255A (ja) * 2011-06-27 2013-01-10 Nec Corp 文書類似度算出装置
JP2014067094A (ja) * 2012-09-24 2014-04-17 Nippon Telegr & Teleph Corp <Ntt> 文書評価学習装置、文書評価装置、方法、及びプログラム
JP2016197396A (ja) * 2015-04-03 2016-11-24 株式会社Nttドコモ 安全テキスト検索

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01185790A (ja) 1988-01-21 1989-07-25 Fujitsu Ltd キャッシュレス投票システム
DE69032712T2 (de) * 1989-06-14 1999-07-01 Hitachi Ltd Hierarchischer vorsuch-typ dokument suchverfahren, vorrichtung dazu, sowie eine magnetische plattenanordnung für diese vorrichtung
US5704060A (en) * 1995-05-22 1997-12-30 Del Monte; Michael G. Text storage and retrieval system and method
US5778361A (en) * 1995-09-29 1998-07-07 Microsoft Corporation Method and system for fast indexing and searching of text in compound-word languages
US9081765B2 (en) * 2008-08-12 2015-07-14 Abbyy Infopoisk Llc Displaying examples from texts in dictionaries
JP5900367B2 (ja) 2013-01-30 2016-04-06 カシオ計算機株式会社 検索装置、検索方法及びプログラム
JP6167029B2 (ja) 2013-12-02 2017-07-19 株式会社Nttドコモ レコメンド情報生成装置およびレコメンド情報生成方法
JP6495124B2 (ja) 2015-07-09 2019-04-03 日本電信電話株式会社 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
JP6447549B2 (ja) 2016-03-15 2019-01-09 カシオ計算機株式会社 テキスト検索装置、テキスト検索方法及びプログラム
JP6720664B2 (ja) 2016-04-18 2020-07-08 富士通株式会社 インデックス生成プログラム、インデックス生成装置、インデックス生成方法、検索プログラム、検索装置および検索方法
EP3616405A4 (en) * 2017-04-28 2021-01-13 Ascava, Inc. LOSS-FREE DATA REDUCTION VIA A PRIMARY DATA SIEVE AND PERFORMANCE OF MULTIDIMENSIONAL SEARCH AND ASSOCIATIVE CONTENT RECOVERY ON LOSS-FREE REDUCED DATA USING A PRIMARY DATA SIEVE
US10824686B2 (en) * 2018-03-05 2020-11-03 Open Text Sa Ulc System and method for searching based on text blocks and associated search operators
CN110147532B (zh) * 2019-01-24 2023-08-25 腾讯科技(深圳)有限公司 编码方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008255A (ja) * 2011-06-27 2013-01-10 Nec Corp 文書類似度算出装置
JP2014067094A (ja) * 2012-09-24 2014-04-17 Nippon Telegr & Teleph Corp <Ntt> 文書評価学習装置、文書評価装置、方法、及びプログラム
JP2016197396A (ja) * 2015-04-03 2016-11-24 株式会社Nttドコモ 安全テキスト検索

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
植松 幸生 他4名: "文単位転置インデックスによる近接検索手法", データベースとWEB情報システムに関するシンポジウム 情報処理学会シンポジウムシリーズ, vol. 2007, no. 3, JPN6022015535, 27 November 2007 (2007-11-27), JP, pages 1 - 7, ISSN: 0004759649 *

Also Published As

Publication number Publication date
JP7180132B2 (ja) 2022-11-30
JP2022121456A (ja) 2022-08-19
US11797581B2 (en) 2023-10-24
US20190377746A1 (en) 2019-12-12

Similar Documents

Publication Publication Date Title
CN109686361B (zh) 一种语音合成的方法、装置、计算设备及计算机存储介质
US9824085B2 (en) Personal language model for input method editor
CN102725790B (zh) 识别词典制作装置及声音识别装置
JP5362095B2 (ja) インプットメソッドエディタ
US6738741B2 (en) Segmentation technique increasing the active vocabulary of speech recognizers
CN113692616B (zh) 用于在端到端模型中的跨语言语音识别的基于音素的场境化
JP2008216756A (ja) 語句として新たに認識するべき文字列等を取得する技術
JP2007108749A (ja) 韻律統計モデル訓練方法及び装置、韻律解析方法及び装置、テキスト音声合成方法及びシステム
JP7024364B2 (ja) 特定プログラム、特定方法および情報処理装置
JP5502814B2 (ja) アラビア語テキストに発音区別符号を付与するための方法およびシステム
JP2010520532A (ja) 画数の入力
JP5231484B2 (ja) 音声認識装置、音声認識方法、プログラム、及びプログラムを配信する情報処理装置
JP2007156545A (ja) 記号列変換方法、単語翻訳方法、その装置およびそのプログラム並びに記録媒体
JP2022121456A (ja) 処理プログラム、処理方法および情報処理装置
Kominek et al. Learning pronunciation dictionaries: language complexity and word selection strategies
JP2015084047A (ja) 文集合作成装置、文集合作成方法および文集合作成プログラム
JP7102710B2 (ja) 情報生成プログラム、単語抽出プログラム、情報処理装置、情報生成方法及び単語抽出方法
US20210142006A1 (en) Generating method, non-transitory computer readable recording medium, and information processing apparatus
JP2007206796A (ja) 文字処理装置、方法、プログラムおよび記録媒体
JP6972788B2 (ja) 特定プログラム、特定方法および情報処理装置
JP2000353159A (ja) 表記・読み対応付け装置、表記・読み対応辞書作成方法、テキスト読み振り装置、テキスト読み振り方法および記録媒体
WO2019003517A1 (ja) 語義ベクトル生成プログラム、語義ベクトル生成方法および語義ベクトル生成装置
JP3952964B2 (ja) 読み情報決定方法及び装置及びプログラム
WO2018179729A1 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
US11080488B2 (en) Information processing apparatus, output control method, and computer-readable recording medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210310

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220426

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220608

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221018

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221031

R150 Certificate of patent or registration of utility model

Ref document number: 7180132

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150