JP6799800B2 - 意味情報生成方法、意味情報生成装置、およびプログラム - Google Patents

意味情報生成方法、意味情報生成装置、およびプログラム Download PDF

Info

Publication number
JP6799800B2
JP6799800B2 JP2019150366A JP2019150366A JP6799800B2 JP 6799800 B2 JP6799800 B2 JP 6799800B2 JP 2019150366 A JP2019150366 A JP 2019150366A JP 2019150366 A JP2019150366 A JP 2019150366A JP 6799800 B2 JP6799800 B2 JP 6799800B2
Authority
JP
Japan
Prior art keywords
word
meaning
text
text data
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019150366A
Other languages
English (en)
Other versions
JP2019212321A (ja
Inventor
山上 勝義
勝義 山上
貴志 牛尾
貴志 牛尾
育規 石井
育規 石井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Publication of JP2019212321A publication Critical patent/JP2019212321A/ja
Application granted granted Critical
Publication of JP6799800B2 publication Critical patent/JP6799800B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring

Description

本開示は自然言語のテキスト情報の意味を取り扱うために単語に対する意味情報を生成するための装置、および、その方法に関するものである。
自然言語のテキスト情報の意味を取り扱うためにテキストを構成する単語に対して意味情報を生成する従来技術が存在する(非特許文献2)、(非特許文献3)。前記従来技術は大量のテキストデータセット(以降、テキストコーパスと記述)から、テキストコーパスに含まれる各単語に割り当てるべき多次元のベクトルを学習し、単語とその単語に対応する多次元のベクトル(意味情報)の対応関係を結果として出力する。
このような従来技術により生成された意味情報は、単語の意味が類似しているか否かの判定に用いることができる。
特開2002−334077号公報
柴田、黒橋「文脈に依存した述語の同義関係獲得」情報処理学会研究報告、Vol.2010−NL−199 No.13 Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. "Efficent Estimation of Word Representations in Vector Space." ICLR 2013. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, Jeffrey Dean, "Distributed Representations of Words and Phrases and their Compositionality." NIPS 2013.
しかしながら、従来技術によると、ある単語に割り当てられる意味情報と、その単語に対して意味を区別すべき他の単語に割り当てられる意味情報とが近接したものとなるため、単語の意味が類似しているかどうかの判定に用いるためには、さらなる改善が必要であった。
本開示の一態様による方法は、意味情報生成装置が行う意味情報生成方法であって、テキストデータを取得し、単語と、所定次元のベクトル空間において前記単語の意味を表すベクトル情報とを対応付けた意味情報テーブルに基づき、前記テキストデータの意味を解析し、前記解析された意味を示す情報を出力し、前記意味情報テーブルは、第一テキストコーパスおよび第二テキストコーパスにおける単語列の配列に基づいて、前記ベクトル空間において第一単語の意味を表す第一ベクトルを前記第一単語に割り当て、前記ベクトル空間において第二単語の意味を表す第二ベクトルを前記第二単語に割り当てる学習により生成されたものであり、前記第一テキストコーパスは、前記第一単語を含み、自然言語で記述された第一文章の第一テキストデータと、前記第一単語と意味を区別すべき前記第二単語を含み、前記第二単語の前および後の所定範囲に出現する単語の種類および出現個数を示す第二単語分布が、前記第一文章における前記第一単語の前および後の前記所定範囲の第一単語分布と類似する第二文章の第二テキストデータとを含み、前記第二テキストコーパスは、前記第一単語および前記第二単語の少なくとも一方と同じ単語である第三単語を含み、前記第三単語の前および後の前記所定範囲の第三単語分布が前記第一単語分布と類似しない第三文章の第三テキストデータを含む。
なお、これらの包括的又は具体的な態様は、システム、装置、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、装置、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
本開示によれば、ある単語に割り当てられるベクトルと、その単語と意味を区別すべき他の単語に割り当てられるベクトルとが近接したものとなることを抑制することができるため、単語の意味が類似しているかどうかの判定に用いることが可能となる。
なお、本開示の更なる効果及び利点は、本明細書及び図面の開示内容から明らかとなるであろう。上記更なる効果及び利点は、本明細書及び図面に開示されている様々な実施の形態及び特徴によって個別に提供されてもよく、必ずしもすべての効果及び利点が提供される必要はない。
本開示の一実施の形態における単語意味情報生成装置の構成の一例を表すブロック図である。 第二テキストコーパスに含まれる単語が、第一テキストコーパスに含まれる単語の反意語である場合の単語意味情報生成装置の構成の一例を表すブロック図である。 一般テキストコーパスとして採用されるテキストコーパスの一例を示す図である。 一般テキストコーパスとして採用されるテキストコーパスであって、反意語関係にある単語を含むテキストコーパスの一例を示す図である。 反意語テキストコーパスに格納されるテキストデータの一例を示す図である。 出現確率の計算に用いられるニューラルネットワークの構成の一例を示す図である。 学習に用いられるテキストデータの一例を示す図である。 1−of−K形式のベクトルで表された単語の一例を示す図である。 ベクトルX、H、Y(−2),Y(−1),Y(+1),Y(+2)を用いて図6のニューラルネットワークを表現した場合の図である。 本開示の実施の形態における単語意味情報生成装置の学習処理を示すフローチャートである。 本実施の形態の比較例の意味ベクトルテーブルにおいて、単語「アップ」と単語「ダウン」とに割り当てられた意味ベクトルを主成分分析法で2次元に縮退させたグラフである。 本実施の形態における意味ベクトルテーブにおいて、単語「アップ」と単語「ダウン」とに割り当てられた意味ベクトルを主成分分析法で2次元に縮退させたグラフである。 意味情報テーブルの利用形態の第一例を構成する家電機器300のブロック図の一例である。 意味情報テーブルの利用形態の第二例を構成する家電システムのブロック図の一例である。
(本開示の基礎となった知見)
前述した従来技術に係る単語に対して多次元のベクトルを割り当てる方式は、自然言語処理技術分野において分布仮説と呼ばれる原理に基づくものである。分布仮説とは、似た意味をもつ単語は同じ文脈で使われるという原理である。言い換えると、似た意味をもつ単語の前後には同じような単語が出現するという原理である。例えば、非特許文献1には、一般的に反意語の関係を持つ単語同士は、文脈が類似する、すなわち、前後の単語列が一致、あるいは、類似することが多いことが指摘されている。
例えば、「上がる」という単語と「アップする」という単語とは、それぞれ「ボーナス/が/上がる/と/うれしい」、「ボーナス/が/アップする/と/うれしい」のような文を構成する際に使われ、「ボーナス/が」、「と/うれしい」という前後の単語列が共通である。分布仮説に基づく従来技術では、単語に多次元のベクトルを割り当てる際に、テキストコーパスにおいて前後の文脈が類似している単語同士は、値が近いベクトルが割り当てられる。その結果、分布仮説に基づく従来技術は、単語を多次元のベクトルに変換し、得られた多次元のベクトルが類似しているかどうかで、単語の意味が類似しているかどうかを判定することができる。
しかしながら、分布仮説に基づく従来技術には、互いに反対の意味をもつ反意語に対しても値が近いベクトルが割り当てられてしまうという課題が存在する。例えば、「上昇する」、「下落する」という単語は、「株価/は/上昇する/だろう」、「株価/は/下落する/だろう」という文に現れるので、「株価/が」「だろう」というように前後の文脈が共通となる。したがって、分布仮説の「似た意味をもつ単語は同じ文脈で使われる」という原理に従うと、「上昇する」「下落する」という反意語も似た意味をもつ単語と判断されてしまう。
一方で、反意語の意味を区別するための手法を開示する従来技術(特許文献1)が存在する。この従来技術では、あらかじめ単語の意味を複数の属性値の組み合わせで表現する概念ベースを構成することが前提となっている。その概念ベースの中で反意語関係にある単語において、ある属性値では値が異なるように属性値を設定しておくことで、反意語関係にある単語同士が区別される。例えば、「上流」「下流」という反意語に対して、“高度”という属性値を持たせて、「上流」に対しては“高度”の属性値に正の数値、「下流」に対しては“高度”の属性値に負の数値を割り当てることで、「上流」と「下流」とが反意語関係であることが表現される。
しかし、特許文献1では、反意語同士で値が異なるように属性値を設定するには、人手による作業により属性値を記述する、あるいは、しかるべき学習方式によってテキストコーパスなどの言語資源データから学習するとの記載に留まっている。したがって、特許文献1では、反意語に対して値が異なるように属性値を設定させることについての具体的な学習方式の開示はない。
また、非特許文献1では、反意語が表れる文脈は類似しているとの指摘に留まり、分布仮説に基づく従来技術の上述の課題を解決するための具体的な手段が何ら明示されていない。
このように、従来技術によれば、テキストコーパスからの学習により、反意語に対して適切に意味を区別可能な意味情報を割り当てることができないという課題が存在する。
このような課題を解決するために、本開示に係る方法は、第一単語を含み、自然言語で記述された第一文章の第一テキストデータと、前記第一単語と意味を区別すべき第二単語を含み、前記第二単語の前および後の所定範囲に出現する単語の種類および出現個数を示す第二単語分布が、前記第一文章における前記第一単語の前および後の前記所定範囲の第一単語分布と類似する第二文章の第二テキストデータとを含む第一テキストコーパスを取得し、前記第一単語および前記第二単語の少なくとも一方と同じ単語である第三単語を含み、前記第三単語の前および後の前記所定範囲の第三単語分布が前記第一単語分布と類似しない第三文章の第三テキストデータを含む第二テキストコーパスを取得し、前記第一テキストコーパスおよび前記第二テキストコーパスにおける単語列の配列に基づいて、所定次元のベクトル空間において前記第一単語の意味を表す第一ベクトルを前記第一単語に割り当て、前記ベクトル空間において前記第二単語の意味を表す第二ベクトルを前記第二単語に割り当てることで学習を行い、前記第一ベクトルを前記第一単語と対応付けて格納し、前記ベクトル空間において前記第一ベクトルとの距離が所定以上離れた前記第二ベクトルを前記第二単語と対応付けて格納する。
これにより、テキストコーパスからの学習により、ある単語、およびその単語と意味を区別すべき他の単語を区別可能な意味情報の割り当てを実現することが可能となる。
より具体的には、実際の単語の使われ方が反映された第一テキストコーパスと、意味を区別すべき単語の周辺の単語列が類似しないように作成された第二テキストコーパスとが取得される。そして、両テキストコーパスから、単語の意味情報であるベクトルが生成されるので、意味を区別すべき単語が異なる文脈で使われるという情報が単語の意味情報の学習に反映される。その結果、意味を区別すべき単語の意味が類似してしまうという従来技術の課題を解決することができる。
また、第一単語には所定の次元数のベクトルで表現された意味情報が割り当てられるので、例えば、ベクトル間の距離を用いて第一単語同士の類似度を適切に判断できる。
また、前記第二テキストコーパスは、第三単語、および自然言語のテキストデータに出現しない人工的に作成された第四単語を含み、前記第三テキストデータにおいて、前記第三単語の前および後の前記所定範囲に含まれる単語は、前記第四単語であるとしてもよい。
これにより、第二テキストコーパスには人工的な単語が含まれることになり、テキストコーパス中の自然言語の単語に対して意味情報を割り当てる際の悪影響を排除することが可能となる。第三単語の周辺の単語を自然言語のある一の単語で置き換えると、その一の単語に対する意味情報が、第二テキストコーパスでの文脈の影響を受けて、本来割り当てられるべき意味情報とは異なる意味情報が割り当てられる可能性がある。そこで、本態様では、第三単語の周辺の単語を第四単語に置き換えることで、上記の問題を解決できる。
前記第一テキストデータおよび前記第二テキストデータは、第一言語の単語で構成されており、前記第三テキストデータにおいて、前記第三単語は前記第一言語の単語であり、前記第三単語の前および後の前記所定範囲に含まれる単語は、前記第一言語とは異なる第二言語の単語であるとしてもよい。
また、前記第二単語は、前記第一単語に対する反意語であることとしてもよい。
これにより、例えば「上げる」、「下げる」といった反意語を適切に区別することが可能となる。
また、前記第二単語は、前記第一単語と同じ意味を有し、当該第一単語と程度の異なる単語であることとしてもよい。
これにより、例えば「good」、「better」、「best」といった、同じ意味で程度の異なる単語を適切に区別することが可能となる。
また、前記第二単語は、前記第一単語と同じ概念に属し、当該第一単語と属性の異なる単語であることとしてもよい。
これにより、例えば「色」という同一の概念に属する「赤」、「青」、「緑」といった属性の異なる単語を適切に区別することが可能となる。
また、前記学習は、ニューラルネットワークを用いて行うこととしてもよい。
これにより、第一および第二テキストコーパスをニューラルネットワークを用いて学習させることで、第一および第二単語が適切に区別されるように意味情報の割り当てが可能となる。
また、前記学習は、潜在的意味インデキシングを用いて行うこととしてもよい。
これにより、第一および第二テキストコーパスを潜在的意味インデキシングを用いて学習させることで、第一および第二単語が適切に区別されるように意味情報の割り当てが可能となる。
また、前記学習は、確率的意味インデキシングを用いて行うこととしてもよい。
これにより、第一および第二テキストコーパスを確率的意味インデキシングを用いて学習させることで、第一および第二単語が適切に区別されるように意味情報の割り当てが可能となる。
また、前記所定次元のベクトルは、前記第一テキストコーパスおよび前記第二テキストコーパスに出現する異なり語数を次元数とすることとしてもよい。
この構成によれば、意味情報は、第一および第二テキストコーパスに出現する異なり語数の次元を持つベクトルで表されるので、種類の異なる各単語は、例えば、1−of−K形式のベクトルで表現可能となり、学習に適した記号列で表わされる。
また、前記第一テキストコーパスは、機器を操作する指示に用いられる自然言語のテキストデータを含み、前記第一単語および前記第二単語は、前記機器の操作内容に関する単語であることとしてもよい。
これにより、例えば、「温度を上げてください」と「温度を下げてください」、「寝室のエアコンをつけてください」と「リビングのエアコンをつけてください」といった、単語列は類似するが意味が異なる機器への指示を適切に区別し、機器の誤操作を防止することが可能となる。
また、前記第一テキストコーパスは、医療診断において患者による症状の説明に用いられる自然言語のテキストデータを含み、前記第一単語は、身体の状態に関する単語であることとしてもよい。
これにより、例えば、「三日前から頭が痛い」、「三日前から頭がふらふらする」といった、単語列は類似するが意味が全く異なる症状の説明を適切に区別し、誤った診断を行うことを防止することが可能となる。
また、前記第一テキストコーパスは、医療診断において症状の説明または当該症状に対する処置に用いられる自然言語のテキストデータを含み、前記第一単語は、身体の部位に関する単語であることとしてもよい。
これにより、例えば、「三日前から右手が痛い」および「三日前から腹部が痛い」、あるいは「頭を冷やしてください」および「左足を冷やしてください」といった、単語列は類似するが意味が全く異なる症状の説明または処置の説明を適切に区別し、誤った診断あるいは誤った処置の提示を防止することが可能となる。
また、前記第一テキストコーパスは、医療診断において症状に対する処置の説明に用いられる自然言語のテキストデータを含み、前記第一単語は、処置内容に関する単語であることとしてもよい。
これにより、例えば、「患部を温めてください」および「患部を冷やしてください」といった、単語列は類似するが意味が全く異なる処置の説明を適切に区別し、誤った処置の提示を防止することが可能となる。
また、本開示は、以上のような特徴的な処理を実行する単語意味情報生成方法として実現することができるだけでなく、単語意味情報生成方法に含まれる特徴的なステップを実行するための処理部を備える単語意味情報生成装置などとして実現することもできる。また、このような単語意味情報生成方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムとして実現することもできる。そして、そのようなコンピュータプログラムを、CD−ROM等のコンピュータ読取可能な非一時的な記録媒体あるいはインターネット等の通信ネットワークを介して流通させることができるのは、言うまでもない。
以下、本開示の実施の形態について、図面を参照しながら説明する。
なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
図1は、本開示の一実施の形態における単語意味情報生成装置の構成の一例を表すブロック図である。単語意味情報生成装置は、例えば、コンピュータで構成され、記憶部110、処理部120、記憶部130、及び操作部108を備える。記憶部110、130は、例えば、ハードディスクドライブやソリッドステートドライブ等の書き換え可能な不揮発性のメモリーで構成される。記憶部110は、第一テキストコーパス101及び第二テキストコーパス102を備える。記憶部130は、意味情報テーブル107を備える。
処理部120は、例えば、CPU、ASIC、FPGA等のプロセッサで構成され、取得部103、意味情報学習部104、意味情報管理部105、およびコーパス生成部106を備える。操作部108は、例えば、キーボード、およびマウス等の入力装置ならびに情報を表示する表示装置で構成される。
なお、記憶部110、処理部120、及び記憶部130が備える各ブロックは、CPUがコンピュータを単語意味情報生成装置として機能させるプログラムを実行することで実現される。
第一テキストコーパス101は、意味情報の生成対象とする単語を含む所定の単位のテキストデータ(例えば、1文を一単位とするテキストデータ)を複数集積したものである。各テキストデータは、単語単位に分割された状態で第一テキストコーパス101に記録される。ここで、1文とは、例えば、句点(例えば、英語であれば、「ピリオド」、日本語であれば「○」)で区画された単語列が該当する。
第一テキストコーパス101は、所定の意味を持つ単語(以下、「第一単語」と記述する)が出現する一以上のテキストデータと、第一単語に対して意味を区別すべき単語(以下、「第二単語」と記述する)が出現する一以上のテキストデータとを複数集積したものである。
第二テキストコーパス102は、第一単語および第二単語の少なくとも一方と同じ単語(以下、「第三単語」と記述する」)が出現する一以上のテキストデータとを複数集積したものである。
第二テキストコーパス102において、第三単語が出現するテキストデータは、自然言語のテキストデータであってもよいし、自然言語に出現しない人工的に作成された単語(以下、「第四単語」と記述する。)を含むテキストデータであってもよい。第四単語が用いられる場合、第三単語を含むテキストデータは、第三単語の周辺の単語列の分布が、第一テキストコーパス101に含まれるテキストデータに出現する第一単語または第二単語の周辺の単語列の分布と異なるように構成されればよい。ここで、「単語の周辺の単語列の分布」とは、対象単語の前後の所定範囲に出現する単語の種類および出現個数を意味する。例えば、「音量を上げて下さい」という文章において、対象単語「上げ」の前後2語分の単語列の分布は、「音量」が1個、「を」が1個、「て」が1個、「下さい」が1個となる。なお、対象単語の前後の所定範囲は、1つの文章すべてを含むような数に設定されてもよく、文章の一部を包含する所定の数(例えば3語)に設定されてもよい。また、「単語列の分布」として、出現する単語の種類および出現個数に加え、単語の出現順序をも考慮してもよい。このように第四単語をテキストデータに含めることにより、テキストコーパス中の自然言語の単語に対して意味情報を割り当てる際の悪影響を排除することが可能となる。
例えば、第三単語の周辺の単語を自然言語のある一の単語で置き換えたとすると、その一の単語に対する意味情報が、第二テキストコーパス102での文脈の影響を受けて、その一の単語に対して、本来割り当てられるべき意味情報とは異なる意味情報が割り当てられる可能性がある。そこで、本開示では、第三単語の周辺の単語を第四単語に置き換えている。
ここで、第四単語としては、例えば、「#」、「!」、「”」、「$」、「&」というよう自然言語には登場しない記号や、それらを組み合わせた記号列が採用できる。第四単語として一律に同じ記号列を採用すると、第三単語同士に類似する意味情報が割り当てられる可能性がある。そこで、第四単語としては、例えば、第二テキストコーパス102を構成する一つのテキストデータ毎に異なる記号或いは記号列が採用されてもよいし、置き換え対象となる単語毎に異なる記号或いは記号列が採用されてもよいし、対象単語が類似する単語同士においては同じ記号或いは記号列が採用されてもよい。
また、第二テキストコーパス102において、第二テキストコーパス102に含まれるテキストデータは、第三単語の周辺の単語列は第一単語の周辺の単語列と異なる自然言語のテキストデータで構成されてもよい。例えば、「エアコンを入れると涼しい」というテキストデータが第一テキストコーパス101に含まれているとする。この場合、「入れる」の反意語である「切る」に対しては「エアコンを切ると暑い」というように、「切る」の周辺に「涼しい」の反意語である「暑い」の文脈を持つテキストデータで第二テキストコーパス102は構成されればよい。
また、例えば、第一、第二テキストコーパス101、102が所定の第一言語(例えば、日本語)で構成される場合、第三単語の周辺の単語列は、第一言語とは異なる第二言語(例えば、英語)で構成されてもよい。例えば、「エアコンを入れると涼しい」というテキストコーパスが第一テキストコーパス101に含まれていたとすると、「エアコン/を」が「APPLE/APPLE」で置き換えられ、「と/涼しい」が「APPLE/APPLE」で置き換えられたテキストデータ「APPLE/APPLE/入れる/APPLE/APPLE」で第二テキストコーパス102は構成されてもよい。
また、第一テキストコーパス101に含まれる第二単語および第二テキストコーパス102に含まれる第三単語の例として、(1)第一テキストコーパス101に含まれる第一単語の反意語、(2)第一テキストコーパス101に含まれる第一単語と同じ意味を有し、程度の異なる単語、(3)第一テキストコーパス101に含まれる第一単語と同じ概念に属し、属性の異なる単語、などが挙げられる。
反意語の場合、例えば「上げる」、「下げる」といった反意語を区別することが可能となる。また、同じ意味を有し、程度の異なる単語の場合、例えば「good」、「better」、「best」といった、同じ意味で程度の異なる単語を区別することが可能となる。また、同じ概念に属し、属性の異なる単語の場合、例えば、「色」という同一の概念に属する「赤」、「青」、「緑」といった属性の異なる単語を区別することが可能となる。
取得部103は、第一テキストコーパス101と第二テキストコーパス102とを取得する。ここで、記憶部110がローカルの記憶装置で構成されているのであれば、取得部103は、記憶部110から第一、第二テキストコーパス101、102を読み出せばよい。また、記憶部110が通信ネットワークを介して接続された外部の記憶装置で構成されているのであれば、取得部103は、通信ネットワークを介して記憶部110にアクセスし、第一、第二テキストコーパス101、102を取得すればよい。
意味情報学習部104は、第一テキストコーパス101および第二テキストコーパス102に含まれるテキストデータにおいて出現する単語を対象単語として、当該対象単語の前後の所定範囲に出現する単語列の分布が類似する単語に対して意味が近くなるように意味情報を割り当てる学習を行う。
ここで、対象単語に割り当てられる意味情報は、所定の次元数の意味ベクトルにより区別可能に表現されればよい。これにより、例えば、意味ベクトル間の距離を用いて単語同士の類似度を適切に判断できる。
この意味ベクトルは、例えば、第一、第二テキストコーパス101、102に出現する異なり語数が次元数とされればよい。これにより、種類の異なる各単語は、例えば、1−of−Kの形式のベクトルで表現可能となり、学習に適した記号列で表される。
なお、意味情報は、所定次元のベクトル空間におけるベクトルではなく、ベクトルの終点に相当する点の座標情報として表現してもよい。
また、意味情報は、単語同士の意味がどの程度類似しているかを示す類似度が計算可能な所定の形式で表現されてもよい。類似度が計算可能な所定の形式としては、例えば、上述の意味ベクトルが採用されてもよいし、ベクトル空間内のある基準点(例えば原点)からの各意味ベクトルの先端までの距離が採用されてもよい。この距離を採用する場合、基準点から同一距離にある単語同士は区別できないが、基準点からの距離が異なる単語同士は区別可能となる。また、この場合、類似度がスカラーで表されるので、単語同士の類似度を算出する際の処理負担が軽減される。
また、意味情報学習部104は、学習として、ニューラルネットワーク、潜在的意味インデキシング、或いは確率的意味インデキシング等を採用すればよい。
意味情報管理部105は、意味情報学習部104による学習の結果である、対象単語に対する意味情報の割り当て状態を示す意味情報テーブル107を管理する。なお、「対象単語」は意味情報の割り当て対象となる単語を指し、第一単語及び第三単語が含まれる。また、第四単語は対象単語とされても良いし、されなくてもよい。
意味情報テーブル107は、各単語と、各単語に割り当てられた意味情報との対応関係をテーブル形式で格納するデータである。
コーパス生成部106は、第一テキストコーパス101を用いて第二テキストコーパス102を生成する。ここで、第二テキストコーパス102は、人為的に生成されてもよいし、自動的に生成されてもよい。人為的に生成する場合、コーパス生成部106は、操作部108が受け付けるオペレータの操作に基づいて第二テキストコーパス102を生成すればよい。この場合、オペレータは、例えば、第一テキストコーパスを1文ずつ編集する操作を入力することで、コーパス生成部106に第二テキストコーパス102を生成させればよい。
また、自動的に生成する場合、コーパス生成部106は、第一テキストコーパス101を構成するテキストデータにおいて、意味が所定の関係にある単語のペアを第一、第三単語として抽出する。そして、コーパス生成部106は、抽出した第一単語の前後の所定範囲に出現する単語列を所定の単語で置き換えると共に、第三単語の前後の所定範囲に出現する単語列を所定の単語で置き換え、第二テキストコーパス102に格納する。ここで、所定の単語としては、上述の第四単語或いは第二言語の単語が採用できる。このとき、コーパス生成部106は、第一単語を含むテキストデータと、その第一単語とペアとなる第三単語を含むテキストデータとに対しては、異なる所定の単語を用いて前記置き換えを行えばよい。また、意味が所定の関係を持つ第一、第三単語を抽出する際、コーパス生成部106は、単語同士の対応関係が事前に登録された対応テーブルを用いればよい。この対応テーブルは、例えば、第三単語として反意語が採用されるのであれば、「暑い」−「涼しい」というような反意語の対応関係を事前に登録していればよい。また、コーパス生成部106は、第一単語を含むテキストデータについては単語の置き換えを行わなくてもよい。
以下、第二テキストコーパス102に含まれる単語が、第一テキストコーパス101に含まれる単語の反意語である場合を例として説明する。
図2は、第二テキストコーパス102に含まれる単語が、第一テキストコーパス101に含まれる単語の反意語である場合の単語意味情報生成装置の構成の一例を表すブロック図である。なお、図2において、図1と同一の構成については同一の符号が付され、説明が省略される。
図2において、一般テキストコーパス201は、意味情報の生成対象とする単語を含む所定の単位のテキストデータ(例えば、1文を一単位とするテキストデータ)を複数集積したものである。各テキストデータは、単語単位に分割された状態で記録される。
図3は、一般テキストコーパス201として採用されるテキストコーパス201A、201Bの例を示す図である。図3において、テキストコーパス201Aは、日本語の一般テキストコーパス201の例である。日本語は、単語の区切りがない文字列で記述される場合がほとんどであるが、形態素解析ソフトウェア(例えば、MeCab)によって、単語の区切りがない文字列データから、単語単位に分割された単語列データが得られる。図3の例では、テキストコーパス201Aに含まれるテキストデータの単位が1文単位とされている。テキストコーパス201A中の複数のテキストデータは、それぞれ、識別番号(図3のID)によって識別される。また、テキストコーパス201Aは、各テキストデータを構成する単語を、出現順序に格納する。テキストデータ中の各単語は、インデックス情報(図3のW1〜W6・・・)によって識別される。
図3において、テキストコーパス201Bは、英語の一般テキストコーパス201の例である。英語は、空白文字によって単語の区切りが明示された文字列で記述される場合がほとんどであるので、空白文字を境に文字列を分割して、単語列データが得られる。テキストコーパス201Aと同様、テキストコーパス201Bは、テキストデータの単位が1文単位とされ、識別情報(図3のID)でテキストデータが識別される。また、テキストコーパス201Bは、テキストコーパス201Aと同様、テキストデータ中の各単語がインデックス情報(図3のW1〜W5・・・)によって識別される。
図4は、一般テキストコーパス201として採用されるテキストコーパス201C、201Dであって、反意語関係にある単語を含むテキストコーパス201C、201Dの例を示す図である。テキストコーパス201Cは、日本語のテキストコーパスの例であり、「上げ」が出現するテキストデータと、「上げ」の反意語である「下げ」が出現するテキストデータとが含まれている。また、テキストコーパス201Cには、「アップ」が出現するテキストデータと、「アップ」の反意語である「ダウン」が出現するテキストデータとが含まれている。
この例では、「上げ」「下げ」という単語の前後に出現する単語列が、「音量/を」「て/下さい」で共通し、「アップ」「ダウン」という単語の前後に出現する単語列が、「温度/を」「し/て/欲しい」で共通している。非特許文献1で指摘されているように、一般的に反意語に関しては、反意語が現れる文脈が類似する、すなわち、前後の単語列が一致、あるいは、類似することが多い。
テキストコーパス201Dは、英語のテキストコーパスの例であり、”increase”が出現するテキストデータと、”increase”の反意語である”decrease”が出現するテキストデータとが含まれている。また、テキストコーパス201Dは、”raise”が出現するテキストデータと、”raise”の反意語である”lower”が出現するテキストデータとが含まれている。この例では、”increase””decrease”という単語の前後に出現する単語列が”Please””the/volume”で共通し、”raise””lower”という単語の前後に出現する単語列が”Please””the/temperature”で共通している。
このように、反意語の現れる文脈が類似するという現象は、日本語以外の英語や他の言語においても共通に見られる現象である。
図2において、反意語テキストコーパス202は、一般テキストコーパス201に含まれる反意語関係にある単語の少なくとも一方を含む所定の単位のテキストデータ(例えば、1文を一単位とするテキストデータ)を集積したものである。反意語テキストコーパス202は、一般テキストコーパス201と同じく、各テキストデータは単語単位に分割されて記録される。
図5は、反意語テキストコーパス202に格納されるテキストデータの例を示す図である。図5において、テキストコーパス202Aは、日本語の反意語テキストコーパス202の例である。テキストコーパス202Aには、「上げ」が出現するテキストデータと、「上げ」の反意語である「下げ」が出現するテキストデータとが含まれている。「上げ」が出現するテキストデータにおいて、「上げ」の前後に現れる単語列は、「#U1#/#U1#」「#U1#/#U1#」である。すなわち、図4では、「音量/を/上げ/て/下さい」と記述されたテキストデータが「#U1#/#U1#/上げ/#U1#/#U1#」と置き換えられている。
一方、「下げ」の前後に現れる単語列は、「#D1#/#D1#」「#D1#/#D1#」である。すなわち、図4では、「音量/を/下げ/て/下さい」と記述されたテキストデータが、「#D1#/#D1#/下げ/#D1#/#D1#」と置き換えられている。
ここで、「#U1#」「#D1#」という単語(記号)は、上記の第四単語の一例であり、通常の自然言語のテキストには出現しない人工的に作成された単語である。すなわち、「#U1#」「#D1#」という単語(記号)は、一般テキストコーパス201のテキストデータには出現しない単語である。
このような第四単語「#U1#」「#D1#」を用いて、反意語関係にある「上げ」と「下げ」の前後の単語列が異なるようにテキストコーパス202Aは作成されている。反意語関係にある「アップ」「ダウン」についても同様で第四単語「#U2#」「#D2#」を用いて、「アップ」と「ダウン」との前後に出現する単語列が異なるようにテキストコーパス202Aは作成されている。したがって、テキストコーパス201A、202Aを用いて学習を行うと、反意語が明確に区別されるように意味情報を割り当てることができる。
図5において、テキストコーパス202Bは、英語の場合の反意語テキストコーパス202の例である。テキストコーパス202Bには、”increase”が出現するテキストデータと、”increase”の反意語である”decrease”が出現するテキストデータとが含まれている。両テキストデータにおいて、”increase”の前後に現れる単語列は”#INC#””#INC#/#INC#”である。すなわち、図4では、”Please/increase/the/volume”と記述されたテキストデータが”#INC#/increase/#INC#/#INC#”と置き換えられている。
一方、”decrease”の前後に現れる単語列は”#DEC#””#DEC#/#DEC#”である。すなわち、図4では、”Please/decrease/the/volume”と記述されたテキストデータが”#DEC#/decrease/#DEC#/#DEC#”と置き換えられている。
ここで、テキストコーパス202Aと同様に、”#INC#””#DEC#”という単語(記号)は、上記の第四単語の一例であり、通常の自然言語のテキストには出現しない人工的に作成された単語である。
このような第四単語”#INC#””#DEC#”を用いて、反意語関係にある”increase””decrease”の前後の単語列が異なるようにテキストコーパス202Bは作成されている。反意語関係にある”raise””lower”に関しても同様に、第四単語”#UP#””#DW#”を用いて、”raise””lower”の前後に出現する単語が異なるようにテキストコーパス202Bは作成されている。したがって、テキストコーパス201B、202Bを用いて学習を行うと、反意語が明確に区別されるように意味情報を割り当てることができる。
なお、図5においては、対象単語に対して直前及び直後に出現する1又は2つの単語が第四単語で置き換えられているが、本開示はこれに限定されず、対象単語の直前及び直後に出現する3つ以上の単語が第四単語で置き換えられてもよい。また、第四単語で置き換えられる直前直後の単語数が一般テキストコーパス201における対象単語の直前直後の単語数と一致していなくてもよい。例えば、テキストコーパス202Bにおいて、”increase””decrease”の直前の単語が一つのみ置き換えられている例を記載しているが、2つ以上、あるいは、1つ以下の第四単語で置き換えるとしてもよい。
また、テキストコーパス202Bにおいて、”increase””decrease”の直前の単語が一つしか置き換えられていないのは、元のテキストデータにおいて”increase””decrease”の直前に一つの単語しかないからである。”increase””decrease”の直前に2つ以上の単語があれば、直前の2つの単語が第四単語で置き換えられる。
また、図5の例では、1つのテキストデータにおいては、同じ第四単語が用いられているが、これは一例であり、置き換え対象となる単語毎に異なる第四単語が用いられてもよい。
図2において、取得部203は、一般テキストコーパス201と反意語テキストコーパス202とを取得する。
図2において、意味ベクトル学習部204(意味情報学習部の一例)は、一般テキストコーパス201に含まれるテキストデータ、および、反意語テキストコーパス202に含まれるテキストデータを用いて、テキストコーパス中に出現する単語を対象単語として、対象単語の前後の所定範囲に出現する単語列の分布が類似する単語に対して意味が近くなるように意味ベクトル(意味情報の一例)を割り当てる学習を行う。意味ベクトルは、単語の意味を1次元以上の数値情報で表現したものである。
意味ベクトル管理部205(意味情報管理部の一例)は、意味ベクトル学習部204による学習の結果である、対象単語に対する意味情報の割り当て状態を示す意味ベクトルテーブル207(意味情報の一例)を管理する。
コーパス生成部206は、コーパス生成部106と同様、一般テキストコーパス201から反意語テキストコーパス202を生成する。
意味ベクトルテーブル207は、各単語と、各単語に対する意味ベクトルとの対応関係をテーブル形式で格納するデータである。
単語に対する意味ベクトルの割り当ては、類似した文脈をもつ単語、すなわち前後に類似した単語列が出現する単語に対して値が類似した意味ベクトルを割り当てるという原理が採用される。このような原理に基づいて意味ベクトルの学習を行う方式は、非特許文献2、3で開示されている方式で実現できる。
本実施の形態においては、非特許文献3の方式で、単語に意味ベクトルを割り当てるものとする。ここでは、非特許文献3の方式について概略を説明する。まず、意味ベクトル学習部204は、式(1)に示すように、学習データとなる各テキストデータを単語数T(Tは1以上の整数)からなる単語列Wと定式化する。具体的には、意味ベクトル学習部204は、一般テキストコーパス201を構成する全てのテキストデータ及び反意語テキストコーパス202に含まれる全てのテキストデータに出現する全ての単語を抽出し、各単語を後述する1−of―K形式のベクトル表現に置き換えた上で、各テキストデータを1−of−Kの列である単語列Wとして定式化する。
Figure 0006799800
学習の目的は式(2)で定義された値を最大化することである。
式(2)は、単語列Wのt番目に位置する単語wの前後に出現するc(cは1以上の整数)個の単語wt+jの条件付き出現確率の対数和を、単語列Wのすべての単語について平均することを意味する。jは単語wの前後に出現するc個の単語を特定するためのインデックスであり、−c以上、c以下、且つ、0以外の整数で表される。式(2)を最大化するということは、単語wを入力したときに出力される単語wt+jが、学習データにおいて、単語wに対して前後に出現する単語になっている確率が高いことを意味する。
非特許文献3では、式(2)の条件付き出現確率の計算が3層のニューラルネットワークでモデル化されている。図6は、出現確率の計算に用いられるニューラルネットワークの構成の一例を示す図である。
図6に示すニューラルネットワークは、式(2)において、c=2とした場合の例が示されている。つまり、このニューラルネットワークは、単語wの前後に2個ずつ出現する4個の単語wt−2、wt−1、wt+1、wt+2に関する条件付き出現確率が最大化されるようにニューラルネットワークを構成する各層同士の結合状態が学習される。
図6において、入力層601は、単語wを入力する層である。例えば、図7に示すテキストデータ「今日/の/天気/は/良く/なる/予報/が/出て/いる」中の単語「良く」が単語wであるとすると、「良く」に対応するベクトルが入力層601に入力される。
ここで、単語wに対応するベクトルは、1−of−K形式と呼ばれる表現形式が採用される。1−of−K形式とは、学習データのテキストコーパスに出現する異なり語数をK個とすると、K個の単語を並べた時にt(tはK以下の整数)番目の単語に対して、K次元ベクトルのt番目の次元のみ「1」、他の次元は「0」を割り当てる表現形式である。
通常、大規模なサイズのテキストコーパスが学習データとされるので、異なり語数は数万〜数十万となり、単語wは数万〜数十万次元のベクトルで表される。例えば、日本語の新聞記事の場合、異なり語数は約20万語足らずであるので、新聞記事が学習データとされた場合、単語wは約20万次元のベクトルで表される。なお、単語wがK次元のベクトルで表されるとすると、入力層601は、K個のノードで構成される。
図8は、1−of−K形式のベクトルで表された単語wの一例を示す図である。図8の例では、単語「天気」「は」「良く」「なる」「予報」が1−of−K形式のベクトルで表されている。例えば、単語「天気」は学習データとなるK個の単語のうちt番目に並べられた単語とすると、t番目の次元のみ「1」、他の次元には「0」が割り当てられる。また、単語「は」は単語「天気」の次に並べられているので、t+1番目の次元のみ「1」、他の次元には「0」が割り当てられる。他の単語も同様にして、1−of−K形式のベクトルで表されている。このように、各単語は「1」の出現位置が異なるようにベクトルが割り当てられるので、意味ベクトル学習部204は、「1」が出現する位置から単語を区別できる。なお、K個の単語の並べ方は、特に限定はなく、テキストコーパスでの単語の出現順であってもよいし、ランダム順であってもよい。
図6において、隠れ層602は、入力層601に入力されたベクトルの各要素を重み付き線形結合し、得られたスカラー値を活性化関数で変換して得られるベクトルの層である。
隠れ層602のベクトルの次元数は、任意の次元数が設定できるが、通常、入力層601のベクトルの次元数(K次元)に比べて小さい次元数が設定される。非特許文献3では、隠れ層602のベクトルの次元数として、200次元がデフォルトの次元数として設定されている。
図6において、出力層603A、603B、603C、603Dは、それぞれ、隠れ層602のベクトルの各要素を重み付き線形結合し、得られたスカラー値をSoftmax関数で変換して得られるベクトルの層である。ここでは、出力層603A、603B、603C、603Dは、それぞれ、単語wt−2、wt−1、wt+1、wt+2の出現確率分布を表す。テキストコーパスに含まれる異なり語数がK個の場合、出力層603A、603B、603C、603Dのベクトルは、それぞれ、K次元であり、k番目の次元の値が、k番目の単語wの出現確率を表す。
入力層601のベクトルをX、隠れ層602のベクトルをH、出力層603A、603B、603C,603DのベクトルをY(−2),Y(−1),Y(+1),Y(+2)とする。ベクトルXからベクトルHを得る式は式(3)、ベクトルHからベクトルY(−2),Y(−1),Y(+1),Y(+2)のi番目の要素を得る式は式(4)で表される。
Figure 0006799800
式(3)のWXHはベクトルXの各要素を重み付き線形結合する際の重みを表す行列である。式(4)のベクトルI,Iは、それぞれ、i番目、k番目の次元のみ「1」、他の次元には「0」が割り当てられたK次元のベクトルである。
式(4)の重み行列W(j)HYはベクトルHを重み付き線形結合する際の重みを表す行列である。式(4)の分子は、ベクトルHを、重み行列W(j)HYのi行目のベクトルで線形結合した値を引数とした指数関数値を示す。式(4)の分母は、ベクトルHを、重み行列W(j)HYの1行目からK行目の各ベクトルで、それぞれ線形結合した値を引数とした指数関数値の和である。
図9は、ベクトルX、H、Y(−2),Y(−1),Y(+1),Y(+2)を用いて図6のニューラルネットワークを表現した場合の図である。このように定式化されたニューラルネットワークを用いて、意味ベクトル学習部204は、テキストコーパスに含まれるテキストデータに出現する単語wを入力教師信号、単語wt+j(−c≦j≦c,j≠0)を出力教師信号として誤差逆伝搬学習によって重みを表す行列の値を決定する。
非特許文献3の方法で意味ベクトル学習部204を構成した場合、重み行列WXHが意味ベクトルテーブル207として採用される。各単語を1−of−K形式のベクトルで表すと、式(3)で示される重み行列WXHは、S行×K列の行列で表される。なお、Sは隠れ層602のベクトルの次元数である。
重み行列WXHのj番目の列は、1−of−K形式で表現されたベクトルであり、j次元目が1となっている単語の意味ベクトルを表す。したがって、意味ベクトルテーブル207は、重み行列WXHに加えて、重み行列WXHの各列に割り当てられた単語の対応関係を示すテーブルが含まれてもよい。
なお、重み行列W(−2) HY,W(−1) HY,W(+1) HY,W(+1) HYは、誤差逆伝搬学習を用いた学習フェーズにおいては必要となるが、学習フェーズが終了すれば不要となる。そのため、意味ベクトルテーブル207が利用される利用フェーズにおいては、重み行列WXHのみが用いられる。
図10は、本開示の実施の形態における単語意味情報生成装置の学習処理を示すフローチャートである。
まず、意味ベクトル学習部204は、ニューラルネットワークの重み行列WXH、WHYをランダム値で初期化する(ステップS101)。次に、意味ベクトル学習部204は誤差逆伝搬学習による重み行列WXH、WHYの値の変化が所定の閾値を下回り、学習が収束したか否かを判定する(ステップS102)。学習が収束したと判定した場合(S102でYES)、意味ベクトル学習部204は、学習処理を終了する。重み行列WXH、WHYが所定の閾値を下回らなければ、意味ベクトル学習部204は、学習は収束していないと判定し(ステップS102でNO)、処理をステップS103に進める。
次に、取得部203は、学習対象のテキストコーパスからテキストデータを1つ取り出す(ステップS103)。ここで、学習対象のテキストコーパスは、一般テキストコーパス201および反意語テキストコーパス202である。したがって、取得部203は、両テキストコーパスの中からいずれか1つのテキストデータを取り出せばよい。
次に、意味ベクトル学習部204は、取り出された1つのテキストデータに含まれるある一つの単語wを入力教師信号、単語wの前後のj個の単語wt+j(−c≦j≦c,j≠0)を出力教師信号とし、誤差逆伝搬学習で重み行列WXH、WHYの値を変化させ(ステップS104)、処理をステップS102に戻す。
つまり、意味ベクトル学習部204は、重み行列WXH、WHYの値の変化が閾値を下回るまで、学習対象のテキストコーパスから1つずつテキストデータを取り出すのである。なお、学習対象のテキストコーパスに含まれるテキストデータを全て取り出しても学習が収束しなければ、取得部203は、再度、1番目のテキストデータから順次にテキストデータを取り出していけばよい。つまり、学習処理では、学習対象のテキストコーパスの中から、テキストデータがサイクリックに取り出され、重み行列WXH、WHYの値を収束させるのである。
以上の説明の通り、意味ベクトル学習部204は、テキストコーパス中のテキストデータを教師信号として、ある単語を入力として、その単語の前後の単語の出現確率が高くなるように、ニューラルネットワークの重み行列を修正し、単語に割り当てる意味ベクトルを学習する。このことから、必然的に、テキストコーパスに含まれる複数の単語において、前後の単語列が類似している単語同士は、学習される意味ベクトルも類似する。これは、同じ意味をもつ単語は似た文脈で出現するという分布仮説に基づいた学習が行われるからである。
しかし、現実の自然言語のテキストでは、反意語も似たような文脈を伴って出現することが多い。図4に示したテキストコーパス201C、201Dの例に見られるように、反意語の関係にある単語同士の文脈は、前後の単語列が一致する、あるいは、類似することが多い。そのため、普通に収集したテキストコーパスを学習データとして分布仮説に基づいた学習を行うと、反意語の関係にある単語同士に割り当てられる意味ベクトルが類似し、両者を明確に区別することが困難になる。
図11は、本実施の形態の比較例の意味ベクトルテーブルにおいて、単語「アップ」と単語「ダウン」とに割り当てられた意味ベクトルを主成分分析法で2次元に縮退させたグラフである。この比較例の意味ベクトルテーブルは、日本語版のWikipediaを形態素解析して作成されたテキストコーパスに対して、分布仮説に基づく学習を実施することで得られたものである。図11に示されるように、単語「アップ」と単語「ダウン」とは、近接した位置に配置されており、非常に近い意味ベクトルが割り当てられていることが分かる。
図12は、本実施の形態における意味ベクトルテーブル207において、単語「アップ」と単語「ダウン」とに割り当てられた意味ベクトルを主成分分析法で2次元に縮退させたグラフである。図12では、日本語版のWikipediaから作成されたテキストコーパスが一般テキストコーパス201として用いられている。また、単語「アップ」と単語「ダウン」とを含む反意語に対して、図5の202Aに示されるような反意語の文脈が異なるように作成されたテキストコーパスが反意語テキストコーパス202として用いられている。そして、両テキストコーパスに対して分布仮説に基づく学習が実施され、意味ベクトルテーブル207が作成されている。
つまり、意味ベクトルテーブル207においては、第一単語の意味を表す第一ベクトルと第一単語とが対応付けられて格納されるとともに、ベクトル空間において第一ベクトルとの距離が所定以上離れた第二ベクトルと第二単語とが対応付けられて格納される。
図12に示されるように、単語「アップ」と単語「ダウン」とは、図11に比べて大幅に離れて配置されており、顕著に相違する意味ベクトルが割り当てられていることがわかる。
このように、本実施の形態の単語意味情報生成装置では、通常の一般テキストコーパス201に加え、反意語の関係を持つ単語同士の文脈が異なるように作成された反意語テキストコーパス202が用いられている。そして、両テキストコーパスに対して分布仮説に基づく学習が実施されているので、反意語の関係を持つ単語同士が適切に区別されるように各単語に意味ベクトルを割り当てることが可能となる。
以上、ある単語とその反意語とを区別する例を用いて本開示は説明された。本開示は、この他に、以下のような具体的な事例に応用することが可能である。
(1)例えば、第一テキストコーパス101は、機器を操作する指示に用いられる自然言語のテキストデータを含み、第二テキストコーパス102は、機器の操作内容に関する単語を第三単語として含むように構成することができる。このようにすることで、例えば、「温度を上げてください」と「温度を下げてください」、「寝室のエアコンをつけてください」と「リビングのエアコンをつけてください」といった、単語列は類似するが意味が異なる指示を適切に区別し、機器の誤操作を防止することが可能となる。
(2)また、第一テキストコーパス101は医療診断において患者による症状の説明に用いられる自然言語のテキストデータを含み、第二テキストコーパス102は身体の状態に関する単語を第三単語として含むように構成することができる。このようにすることで、例えば、例えば、「三日前から頭が痛い」、「三日前から頭がふらふらする」といった、単語列は類似するが意味が全く異なる症状の説明を適切に区別し、誤った診断を行うことを防止することが可能となる。
(3)また、第一テキストコーパス101は医療診断において症状の説明または当該症状に対する処置に用いられる自然言語のテキストデータを含み、第二テキストコーパス102は身体の部位に関する単語を第三単語として含むように構成することができる。このようにすることで、例えば、「三日前から右手が痛い」および「三日前から腹部が痛い」、あるいは「頭を冷やしてください」および「左足を冷やしてください」といった、単語列は類似するが意味が全く異なる症状の説明または処置の説明を適切に区別し、誤った診断あるいは誤った処置の提示を防止することが可能となる。
(4)また、第一テキストコーパス101は医療診断において症状に対する処置の説明に用いられる自然言語のテキストデータを含み、第二テキストコーパス102は処置内容に関する単語を第三単語として含むように構成することができる。このようにすることで、例えば、「患部を温めてください」と「患部を冷やしてください」といった、単語列は類似するが意味が全く異なる処置の説明を適切に区別し、誤った処置の提示を防止することが可能となる。
次に、上記の学習で作成された意味情報テーブルの利用形態について説明する。図13は、意味情報テーブルの利用形態の第一例を構成する家電機器300のブロック図の一例である。
家電機器300は、テレビ、レコーダ、オーディオ装置、洗濯機、空気調和機、冷蔵庫、照明装置といった、種々の家電機器で構成される。
家電機器300は、意味情報テーブル301、マイク302、音声処理部303、解析部304、コマンド生成部305、およびコマンド実行部306を備える。意味情報テーブル301は、図1に示す第一、第二テキストコーパス101、102に対して、上記の学習を実施することで作成されたテーブルであり、図1の意味情報テーブル107に相当する。
マイク302は、音声を電気的な音声信号に変換するものであり、ユーザの音声を収音するために用いられる。音声処理部303は、マイク302から出力された音声信号を解析し、ユーザが発話した音声を示すテキストデータを生成する。解析部304は、音声処理部303で生成されたテキストデータを意味情報テーブル301を用いて解析する。ここで、解析部304は、入力されたテキストデータを構成する各単語の意味情報を意味情報テーブル301を参照することで決定する。そして、解析部304は、決定した各単語の意味情報から、ユーザの発話内容が家電機器300に対する操作に関するものであるか否かを判定する。そして、ユーザの発話内容が家電機器300に対する操作に関するものであれば、解析部304は、その操作を示す操作情報をコマンド生成部305に出力する。
コマンド生成部305は、入力された操作情報が示す操作を実行するコマンドを生成し、コマンド実行部306に出力する。コマンド実行部306は、入力されたコマンドを実行する。これにより、家電機器300は意味情報テーブル301を用いて、ユーザが発話する操作内容を適切に認識できる。
図14は、意味情報テーブルの利用形態の第二例を構成する家電システムのブロック図の一例である。この家電システムは、音声認識の機能をクラウド上に存在するサーバ500に担わせて、音声により家電機器400を操作するものである。
家電機器400及びサーバ500は、例えば、インターネット等の公衆通信ネットワークを介して接続されている。
家電機器400は、図13で説明した家電機器300と同じである。但し、第二例では、家電機器400は、音声認識を行わないので、意味情報テーブル501、音声処理部502、解析部503、およびコマンド生成部504はサーバ500に設けられている。
マイク401は、図13のマイク302と同じである。信号処理部402は、マイク401から入力される音声信号がノイズであるか否かを判定し、ノイズで無い場合、その音声信号を通信部404に出力する。通信部404は、入力された音声信号を通信可能なフォーマットを持つ通信信号に変換し、サーバ500に送信する。
サーバ500の通信部505は、家電機器400からの通信信号を受信し、音声信号を取り出して、音声処理部502に出力する。音声処理部502は、図13に示す音声処理部303と同様、入力された音声信号を解析し、ユーザが発話した音声を示すテキストデータを生成する。解析部503は、図13に示す解析部304と同様、音声処理部502で生成されたテキストデータを意味情報テーブル501を用いて解析し、操作情報をコマンド生成部504に出力する。
コマンド生成部504は、入力された操作情報が示す操作を実行するコマンドを生成し、通信部505に出力する。通信部505は、入力されたコマンドを通信可能なフォーマットを持つ通信信号に変換し、家電機器400に送信する。
家電機器400の通信部404は通信信号を受信し、受信した通信信号からヘッダー等を除去し、信号処理部402に出力する。信号処理部402は、ヘッダーが除去された通信信号が家電機器400のコマンドである場合、そのコマンドをコマンド実行部403に出力する。コマンド実行部403は、入力されたコマンドを実行する。
このように、図14の家電システムでは、サーバ500は、上記の学習により生成された意味情報テーブル501を用いて、ユーザが発話する操作内容を適切に認識し、家電機器400にコマンドを送信することができる。
本開示にかかる単語意味情報生成装置は、自然言語テキストの意味を取り扱うアプリケーションへの応用が有効である。例えば、類似の意味の文の検索、言い換え処理、対話システムにおける発話文の意味分類などに応用が可能である。
101 第一テキストコーパス
102 第二テキストコーパス
103 取得部
104 意味情報学習部
105 意味情報管理部
106 コーパス生成部
107 意味情報テーブル
108 操作部
110 記憶部
120 処理部
130 記憶部
201 一般テキストコーパス
201A、201B、201C、201D テキストコーパス
202 反意語テキストコーパス
202A、202B テキストコーパス
203 取得部
204 意味ベクトル学習部
205 意味ベクトル管理部
206 コーパス生成部
207 意味ベクトルテーブル

Claims (16)

  1. 意味情報生成装置が行う意味情報生成方法であって、
    テキストデータを取得し、
    単語と、所定次元のベクトル空間において前記単語の意味を表すベクトル情報とを対応付けた意味情報テーブルに基づき、前記テキストデータの意味を解析し、
    前記解析された意味を示す情報を出力し、
    前記意味情報テーブルは、
    第一テキストコーパスおよび第二テキストコーパスにおける単語列の配列に基づいて、前記ベクトル空間において第一単語の意味を表す第一ベクトルを前記第一単語に割り当て、前記ベクトル空間において第二単語の意味を表す第二ベクトルを前記第二単語に割り当てる学習により生成されたものであり、
    前記第一テキストコーパスは、前記第一単語を含み、自然言語で記述された第一文章の第一テキストデータと、前記第一単語と意味を区別すべき前記第二単語を含み、前記第二単語の前および後の所定範囲に出現する単語の種類および出現個数を示す第二単語分布が、前記第一文章における前記第一単語の前および後の前記所定範囲の第一単語分布と類似する第二文章の第二テキストデータとを含み、
    前記第二テキストコーパスは、前記第一単語および前記第二単語の少なくとも一方と同じ単語である第三単語を含み、前記第三単語の前および後の前記所定範囲の第三単語分布が前記第一単語分布と類似しない第三文章の第三テキストデータを含む、
    意味情報生成方法。
  2. 前記第二テキストコーパスは、前記第三単語、および自然言語のテキストデータに出現しない人工的に作成された第四単語を含み、
    前記第三テキストデータにおいて、前記第三単語の前および後の前記所定範囲に含まれる単語は、前記第四単語である、
    請求項1記載の意味情報生成方法。
  3. 前記第一テキストデータおよび前記第二テキストデータは、第一言語の単語で構成されており、
    前記第三テキストデータにおいて、前記第三単語は前記第一言語の単語であり、前記第三単語の前および後の前記所定範囲に含まれる単語は、前記第一言語とは異なる第二言語の単語である
    請求項1記載の意味情報生成方法。
  4. 前記第二単語は、前記第一単語に対する反意語である
    請求項1記載の意味情報生成方法。
  5. 前記第二単語は、前記第一単語と同じ意味を有し、当該第一単語と程度の異なる単語である、
    請求項1記載の意味情報生成方法。
  6. 前記第二単語は、前記第一単語と同じ概念に属し、当該第一単語と属性の異なる単語である、
    請求項1記載の意味情報生成方法。
  7. 前記学習は、ニューラルネットワークを用いて行われる、
    請求項1記載の意味情報生成方法。
  8. 前記学習は、潜在的意味インデキシングを用いて行われる、
    請求項1記載の意味情報生成方法。
  9. 前記学習は、確率的意味インデキシングを用いて行われる、
    請求項1記載の意味情報生成方法。
  10. 前記ベクトル空間は、前記第一テキストコーパスおよび前記第二テキストコーパスに出現する異なり語数を次元数とする、
    請求項1記載の意味情報生成方法。
  11. 前記第一テキストコーパスは、機器を操作する指示に用いられる自然言語のテキストデータを含み、
    前記第三単語は、前記機器の操作内容に関する単語である、
    請求項1記載の意味情報生成方法。
  12. 前記第一テキストコーパスは、医療診断において患者による症状の説明に用いられる自然言語のテキストデータを含み、
    前記第三単語は、身体の状態に関する単語である、
    請求項1記載の意味情報生成方法。
  13. 前記第一テキストコーパスは、医療診断において症状の説明または当該症状に対する処置に用いられる自然言語のテキストデータを含み、
    前記第三単語は、身体の部位に関する単語である、
    請求項1記載の意味情報生成方法。
  14. 前記第一テキストコーパスは、医療診断において症状に対する処置の説明に用いられる自然言語のテキストデータを含み、
    前記第三単語は、処置内容に関する単語である、
    請求項1記載の意味情報生成方法。
  15. テキストデータを取得する手段と、
    単語と、所定次元のベクトル空間において前記単語の意味を表すベクトル情報とを対応付けた意味情報テーブルに基づき、前記テキストデータの意味を解析する手段と、
    前記解析された意味を示す情報を出力する手段とを備え、
    前記意味情報テーブルは、
    第一テキストコーパスおよび第二テキストコーパスにおける単語列の配列に基づいて、前記ベクトル空間において第一単語の意味を表す第一ベクトルを前記第一単語に割り当て、前記ベクトル空間において第二単語の意味を表す第二ベクトルを前記第二単語に割り当てる学習により生成されたものであり、
    前記第一テキストコーパスは、前記第一単語を含み、自然言語で記述された第一文章の第一テキストデータと、前記第一単語と意味を区別すべき前記第二単語を含み、前記第二単語の前および後の所定範囲に出現する単語の種類および出現個数を示す第二単語分布が、前記第一文章における前記第一単語の前および後の前記所定範囲の第一単語分布と類似する第二文章の第二テキストデータとを含み、
    前記第二テキストコーパスは、前記第一単語および前記第二単語の少なくとも一方と同じ単語である第三単語を含み、前記第三単語の前および後の前記所定範囲の第三単語分布が前記第一単語分布と類似しない第三文章の第三テキストデータを含む、
    意味情報生成装置。
  16. コンピュータに
    テキストデータを取得し、
    単語と、所定次元のベクトル空間において前記単語の意味を表すベクトル情報とを対応付けた意味情報テーブルに基づき、前記テキストデータの意味を解析し、
    前記解析された意味を示す情報を出力することを実行させるプログラムであって、
    前記意味情報テーブルは、
    第一テキストコーパスおよび第二テキストコーパスにおける単語列の配列に基づいて、前記ベクトル空間において第一単語の意味を表す第一ベクトルを前記第一単語に割り当て、前記ベクトル空間において第二単語の意味を表す第二ベクトルを前記第二単語に割り当てる学習により生成されたものであり、
    前記第一テキストコーパスは、前記第一単語を含み、自然言語で記述された第一文章の第一テキストデータと、前記第一単語と意味を区別すべき前記第二単語を含み、前記第二単語の前および後の所定範囲に出現する単語の種類および出現個数を示す第二単語分布が、前記第一文章における前記第一単語の前および後の前記所定範囲の第一単語分布と類似する第二文章の第二テキストデータとを含み、
    前記第二テキストコーパスは、前記第一単語および前記第二単語の少なくとも一方と同じ単語である第三単語を含み、前記第三単語の前および後の前記所定範囲の第三単語分布が前記第一単語分布と類似しない第三文章の第三テキストデータを含む、
    プログラム。
JP2019150366A 2015-06-17 2019-08-20 意味情報生成方法、意味情報生成装置、およびプログラム Active JP6799800B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015121670 2015-06-17
JP2015121670 2015-06-17

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2016081140A Division JP6583686B2 (ja) 2015-06-17 2016-04-14 意味情報生成方法、意味情報生成装置、およびプログラム

Publications (2)

Publication Number Publication Date
JP2019212321A JP2019212321A (ja) 2019-12-12
JP6799800B2 true JP6799800B2 (ja) 2020-12-16

Family

ID=56098111

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016081140A Active JP6583686B2 (ja) 2015-06-17 2016-04-14 意味情報生成方法、意味情報生成装置、およびプログラム
JP2019150366A Active JP6799800B2 (ja) 2015-06-17 2019-08-20 意味情報生成方法、意味情報生成装置、およびプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016081140A Active JP6583686B2 (ja) 2015-06-17 2016-04-14 意味情報生成方法、意味情報生成装置、およびプログラム

Country Status (4)

Country Link
US (2) US10007659B2 (ja)
EP (1) EP3107003A1 (ja)
JP (2) JP6583686B2 (ja)
CN (1) CN106257440B (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018123139A1 (ja) * 2016-12-27 2018-07-05 シャープ株式会社 応答装置、応答装置の制御方法、および制御プログラム
DE112017006785B4 (de) * 2017-02-14 2023-01-19 Mitsubishi Electric Corporation Datenanalysator und Datenanalyseverfahren
JP7117629B2 (ja) * 2017-04-27 2022-08-15 パナソニックIpマネジメント株式会社 翻訳装置
US11200269B2 (en) * 2017-06-15 2021-12-14 Microsoft Technology Licensing, Llc Method and system for highlighting answer phrases
JP6972711B2 (ja) * 2017-06-30 2021-11-24 富士通株式会社 語義ベクトル生成プログラム、語義ベクトル生成方法および語義ベクトル生成装置
CN107403068B (zh) * 2017-07-31 2018-06-01 合肥工业大学 融合临床思维的智能辅助问诊方法及系统
US11288581B2 (en) 2017-12-27 2022-03-29 Sap Se Subsymbolic encoding with preserved semantic relationships
CN110675863A (zh) * 2018-07-03 2020-01-10 上海智臻智能网络科技股份有限公司 语音语料生成方法及装置、语音识别方法及装置
WO2020054244A1 (ja) * 2018-09-13 2020-03-19 株式会社Nttドコモ 対話情報生成装置
EP3637428A1 (en) * 2018-10-12 2020-04-15 Siemens Healthcare GmbH Natural language sentence generation for radiology reports
CN109597873B (zh) * 2018-11-21 2022-02-08 腾讯科技(深圳)有限公司 语料数据的处理方法、装置、计算机可读介质及电子设备
US11675966B2 (en) * 2019-05-15 2023-06-13 Fortia Financial Solutions Table of contents generation
CN110575040B (zh) * 2019-09-09 2021-08-20 珠海格力电器股份有限公司 智能窗帘的控制方法、控制终端和智能窗帘控制系统
CN110675862A (zh) * 2019-09-25 2020-01-10 招商局金融科技有限公司 语料获取方法、电子装置及存储介质
EP3828731A1 (en) * 2019-11-26 2021-06-02 Siemens Aktiengesellschaft A method and analytical engine for a semantic analysis of textual data
US20230013424A1 (en) * 2019-12-18 2023-01-19 Sony Semiconductor Solutions Corporation Information processing apparatus, information processing method, program, imaging apparatus, and imaging system
CN111198939B (zh) * 2019-12-27 2021-11-23 北京健康之家科技有限公司 语句相似度的分析方法、装置及计算机设备
CN111160042B (zh) * 2019-12-31 2023-04-28 重庆觉晓科技有限公司 一种文本语义解析方法和装置
CN111414750B (zh) * 2020-03-18 2023-08-18 北京百度网讯科技有限公司 一种词条的同义判别方法、装置、设备和存储介质
CN111984789B (zh) * 2020-08-26 2024-01-30 普信恒业科技发展(北京)有限公司 一种语料分类方法、装置及服务器
JP2022051113A (ja) * 2020-09-18 2022-03-31 富士フイルムビジネスイノベーション株式会社 情報出力装置、質問生成装置、及びプログラム
CN112259096B (zh) * 2020-10-23 2022-10-18 海信视像科技股份有限公司 语音数据处理方法及装置
CN112699688B (zh) * 2021-01-08 2022-11-04 北京理工大学 一种篇章关系可控的文本生成方法和系统
CN116029284B (zh) * 2023-03-27 2023-07-21 上海蜜度信息技术有限公司 中文子串提取方法、系统、存储介质及电子设备

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5371807A (en) * 1992-03-20 1994-12-06 Digital Equipment Corporation Method and apparatus for text classification
EP1393200A2 (en) * 2000-09-29 2004-03-03 Gavagai Technology Incorporated A method and system for describing and identifying concepts in natural language text for information retrieval and processing
JP2002334077A (ja) 2001-05-10 2002-11-22 Nippon Telegr & Teleph Corp <Ntt> 対義度検出装置、その方法、そのプログラム及びそのプログラムが記録された記録媒体
US7181451B2 (en) * 2002-07-03 2007-02-20 Word Data Corp. Processing input text to generate the selectivity value of a word or word group in a library of texts in a field is related to the frequency of occurrence of that word or word group in library
US7343280B2 (en) * 2003-07-01 2008-03-11 Microsoft Corporation Processing noisy data and determining word similarity
US8312021B2 (en) * 2005-09-16 2012-11-13 Palo Alto Research Center Incorporated Generalized latent semantic analysis
JP2007316803A (ja) * 2006-05-24 2007-12-06 Matsushita Electric Ind Co Ltd 操作支援装置および操作支援方法
US8364468B2 (en) * 2006-09-27 2013-01-29 Academia Sinica Typing candidate generating method for enhancing typing efficiency
US8280885B2 (en) * 2007-10-29 2012-10-02 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
CN101802776A (zh) * 2008-07-29 2010-08-11 特克斯特怀茨有限责任公司 应用语义向量和关键字分析关联数据集的方法和装置
US9384678B2 (en) * 2010-04-14 2016-07-05 Thinkmap, Inc. System and method for generating questions and multiple choice answers to adaptively aid in word comprehension
US20130149681A1 (en) * 2011-12-12 2013-06-13 Marc Tinkler System and method for automatically generating document specific vocabulary questions
CN104063502B (zh) * 2014-07-08 2017-03-22 中南大学 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN104679823A (zh) * 2014-12-31 2015-06-03 智慧城市信息技术有限公司 基于语义标注的异构数据关联方法及系统

Also Published As

Publication number Publication date
CN106257440A (zh) 2016-12-28
CN106257440B (zh) 2021-03-09
JP2017010528A (ja) 2017-01-12
JP2019212321A (ja) 2019-12-12
US20160371254A1 (en) 2016-12-22
US10007659B2 (en) 2018-06-26
JP6583686B2 (ja) 2019-10-02
EP3107003A1 (en) 2016-12-21
US20180267961A1 (en) 2018-09-20
US10325023B2 (en) 2019-06-18

Similar Documents

Publication Publication Date Title
JP6799800B2 (ja) 意味情報生成方法、意味情報生成装置、およびプログラム
US11150875B2 (en) Automated content editor
CN109564589B (zh) 使用手动用户反馈进行实体识别和链接系统和方法
CN109840287A (zh) 一种基于神经网络的跨模态信息检索方法和装置
US10719668B2 (en) System for machine translation
Zhao et al. Cross-domain image captioning via cross-modal retrieval and model adaptation
US20160140109A1 (en) Generation of a semantic model from textual listings
US11687716B2 (en) Machine-learning techniques for augmenting electronic documents with data-verification indicators
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
US11645447B2 (en) Encoding textual information for text analysis
JP6729095B2 (ja) 情報処理装置及びプログラム
CN110245349B (zh) 一种句法依存分析方法、装置及一种电子设备
JP2019185551A (ja) アノテーション付テキストデータの拡張方法、アノテーション付テキストデータの拡張プログラム、アノテーション付テキストデータの拡張装置、及び、テキスト分類モデルの訓練方法
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN111931477A (zh) 文本匹配方法、装置、电子设备以及存储介质
JP7005045B2 (ja) ナイーブベイズ分類器に対する限界攻撃方法
JP5812534B2 (ja) 質問応答装置、方法、及びプログラム
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN109284497B (zh) 用于识别自然语言的医疗文本中的医疗实体的方法和装置
CN115861995A (zh) 一种视觉问答方法、装置及电子设备和存储介质
CN111259650A (zh) 基于类标序列生成式对抗模型的文本自动生成方法
DUTTA Create caption by extracting features from image and video using deep learning model
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
WO2022085533A1 (ja) 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム
US20220092260A1 (en) Information output apparatus, question generation apparatus, and non-transitory computer readable medium

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201105

R151 Written notification of patent or utility model registration

Ref document number: 6799800

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151