JP7168963B2

JP7168963B2 - 自然言語処理装置及び自然言語処理方法

Info

Publication number: JP7168963B2
Application number: JP2020079199A
Authority: JP
Inventors: 康知橋爪; 悠貴大塩; 一輝近藤; 敏樹志岐
Original assignee: 株式会社Ａｓｋプロジェクト
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2022-11-10
Anticipated expiration: 2040-04-28
Also published as: JP2021174362A

Description

本発明は、特定の技術分野での自然言語をコーパスを用いて分析する自然言語処理装置及び自然言語処理方法に関するものである。

近年、人工知能を用いてコンピューター上で自然言語からなる質問文に対する回答を出力する質疑応答システムが利用されている。

この質疑応答システムでは、自然言語からなる質問文をコーパスを用いて分析するとともに、予め学習させた質問と回答からなる学習データの中からＣＮＮ（Convolutional Neural Network：畳込みニューラルネットワーク）によって確信度の高い回答を回答候補として選択するといった自然言語処理が用いられている（たとえば、特許文献１参照。）。

特開２０１５－１０９０６８号公報

上記の自然言語処理においては、自然言語からなる質問文の分析の良否が直接的に回答の適否につながるため、質問文の分析に用いられるコーパスの質の向上が求められている。

特に、特定の技術分野においては、日常的に使用される文章とは異なって各分野ごとに専門的に使用される文章が多く存在しているために、汎用されるコーパスを用いたのでは質問文を良好に分析できないおそれがある。

そこで、請求項１に係る本発明では、特定の技術分野での自然言語をコーパスを用いて分析し、自然言語の質問文に対してＣＮＮ（Convolutional Neural Network：畳込みニューラルネットワーク）を用いて予め学習させた質問とその回答からなる学習データから複数の学習データを選択する、自然言語処理装置によって実行される自然言語処理方法において、コーパスとして、基準となる文章を蓄積した基準コーパスと、基準コーパスよりも特定の技術分野での専門性が高い文章を蓄積した専門コーパスとを組み合わせたものを用い、質問文に対してＣＮＮを用いて、複数の学習データの選択と、選択された各学習データの確信度の算定をして、選択された各学習データにおける前記質問文に含まれる名詞の出現率及び前記確信度を加味して、選択された各学習データの信頼度を決定し、選択された各学習データの回答を当該信頼度とともに出力することにした。

また、請求項２に係る本発明では、特定の技術分野での自然言語をコーパスを用いて分析し、自然言語の質問文に対してＣＮＮ（Convolutional Neural Network：畳込みニューラルネットワーク）を用いて予め学習させた質問とその回答からなる学習データから複数の学習データを選択する自然言語処理装置において、コーパスとして、基準となる文章を蓄積した基準コーパスと、基準コーパスよりも特定の技術分野での専門性が高い文章を蓄積した専門コーパスとを組み合わせたものを用い、質問文に対してＣＮＮを用いて、複数の学習データの選択と、選択された各学習データの確信度の算定をして、選択された各学習データにおける前記質問文に含まれる名詞の出現率及び前記確信度を加味して、選択された各学習データの信頼度を決定し、選択された各学習データの回答を当該信頼度とともに出力することにした。

また、請求項３に係る本発明では、前記請求項２に係る本発明において、前記専門コーパスとして、予め用意された複数の専門コーパスから選択されたいずれかの専門コーパスを用いることにした。

そして、本発明では、以下に記載する効果を奏する。

すなわち、本発明では、コーパスとして、基準となる文章を蓄積した基準コーパスと、基準コーパスよりも特定の技術分野での専門性が高い文章を蓄積した専門コーパスとを組み合わせたものを用いることにしているために、専門性の高い質問文であってもその技術分野に適したコーパスによって良好に分析を行うことができる。

自然言語処理装置を示す説明図。自然言語処理方法を示す説明図。自然言語処理方法を示す説明図。自然言語処理方法を示す説明図。

以下に、本発明に係る自然言語処理装置及び自然言語処理方法の具体的な構成について図面を参照しながら説明する。なお、以下の説明では、たとえば、医薬品等の特定の技術分野で利用される質疑応答システムにおいて使用される自然言語処理装置について説明する。

図１に示すように、医薬品に関する質疑応答システム１は、システムの運営者のコンピューター（サーバーコンピューター２：自然言語処理装置）とシステムのユーザーのコンピューター（クライアントコンピューター３～６）とを電子通信回線網７を介して接続して構成している。ここで、各コンピューター２～６は、相互に通信可能なコンピューターとしての機能を有していればよく、大型コンピューターやパーソナルコンピューターや携帯端末機などが該当する。また、電子通信回線網７は、有線・無線や専用・汎用を問わず相互の通信が可能な機能を有していればよく、代表例としてインターネットが挙げられるが、必ずしもクラウドな環境である必要はなくオンプレミスな環境であってもよい。

この質疑応答システム１では、予め想定される医薬品に関する質問とその回答とを学習させた学習データを蓄積したＱ＆Ａデータベース８を作成しておき、ユーザーのコンピューター（クライアントコンピューター３～６）からの質問に対してサーバーコンピューター２が人工知能の技術を用いて質問に対する回答をＱ＆Ａデータベース８（学習データ）から抽出してクライアントコンピューター３～６に回答するシステムである。たとえば、質疑応答システム１は、医薬品に関する使用方法や注意点などを得るために活用することができる。

この質疑応答システム１において、サーバーコンピューター２は、図２に示すように、自然言語処理エンジン（自然言語処理プログラム）９を実行し、クライアントコンピューター３～６から自然言語からなる質問文が入力（質問文入力ステップＳ１）されると、自然言語からなる文章を構造化し蓄積したコーパス10を用いて質問文を分析し（質問文分析ステップＳ２）、質問文に対応する学習データをＣＮＮ（Convolutional Neural Network：畳込みニューラルネットワーク）を用いてＱ＆Ａデータベース８内から信頼度を付して複数選択し（学習データ選択ステップＳ３）、それらを信頼度の高い順に並べて質問文に対する回答候補として出力する（回答出力ステップＳ４）。

ここで、自然言語処理エンジン９では、質問文分析ステップＳ２において、医薬品といった特定の技術分野での自然言語からなる質問文をコーパス10を用いて分析する自然言語処理を行う際に、基準となる文章を構造化し蓄積した汎用の一つの基準コーパス11だけを用いるのではなく、その基準コーパス11よりも特定の技術分野での専門性が高い文章を構造化し蓄積した専門コーパス12と基準コーパス11とを組み合わせたコーパス10を用いることにしている。

基準コーパス11としては、広く公開利用されている既存のものを使用することができ、専門コーパス12としては、質疑応答システム１（自然言語処理装置）の自然言語処理エンジン９で質問文を受付ける技術分野において使用されている文章を構造化し蓄積することで特定の技術分野にカスタマイズさせたものを使用することができる。特定の技術分野は、医学や機構学や電磁気学などのような学術分野でもよく、医薬品や食料品や家電品などのような製品分野でもよく、さらには、特定の業種や企業などのような産業（経済）分野などであってもよい。

専門コーパス12は、予め分野別に複数用意しておき、その中から選択された１又は複数を用いることにしてもよい。また、基準コーパス11は、継続して使用する一方で、専門コーパス12は、逐次カスタマイズ又はバージョンアップをしながら使用するようにしてもよい。

自然言語処理エンジン９では、コーパス10（基準コーパス11及び専門コーパス12）を用いて単語の意味を理解するための事前知識（単語間の関係を表す分散表現）を作成している。

上記自然言語処理エンジン９において、質問文入力ステップＳ１では、自然言語からなる質問文をテキストデータとして受付ける。

また、上記自然言語処理エンジン９において、質問文分析ステップＳ２では、図２に示すように、質問文を正規化し（正規化ステップＳ21）、正規化された質問文を分かち書きし（分かち書きステップＳ22）、分かち書きされた質問文からストップワードを削除する（ストップワード削除ステップＳ23）。

正規化ステップＳ21では、文字種の統一や大文字・小文字の統一などのように、予め設定したルールで文章を統一させる処理を行う。

分かち書きステップＳ22では、形態素解析エンジン（MeCab等）を用いて品詞の限定や原型への変換を行って文章を品詞ごとに分ける処理を行う。

ストップワード削除ステップS23では、予め設定した意味のない単語などの削除対象となる単語を文章から削除する処理を行う。

また、上記自然言語処理エンジン９において、学習データ選択ステップＳ３では、図２に示すように、質問文をベクトル化し（ベクトル化ステップＳ31）、質問文に対応する学習データをＣＮＮを用いて判別し（ＣＮＮ判別ステップＳ32）、予め設定したルールに基づいて各学習データの確信度を算定し（確信度算定ステップＳ33）、予め設定したルールに基づいて各学習データと質問文とのキーワードマッチングを行い（キーワードマッチングステップＳ34）、予め設定したルールに基づいて各学習データの信頼度を算定する（信頼度算定ステップＳ35）。

ベクトル化ステップＳ31では、質問文分析ステップＳ２で前処理した質問文について、単語のベクトル化処理（Word2Vec等）を用いて質問文に含まれる各単語をベクトル化するとともに、単語間の関係を表す分散表現を事前知識として重みを重畳することによって、質問文自体をベクトル化する。

ＣＮＮ判別ステップＳ32では、ベクトル化ステップＳ31でベクトル化した質問文について、学習データによって学習済みのＣＮＮライブラリ（たとえば、Kerasのpredictメソッド等）を用いて畳込みニューラルネットワークによる処理を行い、学習データから選択された全ての回答候補についてその確信度を得る。なお、学習データの質問は、予め上記自然言語処理エンジン９の正規化ステップＳ21～ベクトル化ステップＳ31を実行（学習処理）することでベクトル化されて学習済みとなっており、新たに学習データを追加する場合にも同様に学習処理を行っている。

上記自然言語処理エンジン９においては、ＣＮＮ判別ステップＳ32で選択された回答候補やその確信度をそのまま使用するのではなく、以下の確信度算定ステップＳ33、キーワードマッチングステップＳ34、信頼度算定ステップＳ35を行うことで、最終的な回答候補とその信頼度を出力するようにしている。

確信度算定ステップＳ33では、図３に示すように、質問文が学習データに含まれているか（質問文と学習データの質問とが同一か）否かを判断（質問文学習データ比較ステップＳ331）する。

質問文学習データ比較ステップＳ331において質問文が既に学習データに含まれていると判断した場合には、ＣＮＮ判別ステップＳ32で得られた回答候補の中から質問文と同一の学習データを回答候補１位とする。また、ＣＮＮ判別ステップＳ32で得られた回答候補の中から質問文と同一の学習データを除いた回答候補について予め設定した順番（ここでは、１０）から１を引いた順番（ここでは、１～９）の回答候補を１を足した順位（ここでは、２位～１０位）の回答候補に繰下げる（回答候補繰下げステップＳ332）。

そして、質問文と同一の学習データを除いた全ての回答候補（２位～１０位）の確信度を０．１％にするとともに、質問文と同一の学習データとなる回答候補（１位）の確信度を、
１００－（０．１×ＣＮＮ判別ステップＳ32で得られた回答候補の総数）
とする（確信度再計算ステップＳ333）。

一方、質問文学習データ比較ステップＳ331において質問文が既に学習データに含まれていないと判断した場合には、ＣＮＮ判別ステップＳ32で得られた回答候補の中から予め設定した順番（ここでは、１０）の回答候補をその順位（ここでは、１位～１０位）の回答候補とし、その確信度をそのまま維持する（回答候補決定ステップＳ334）。

そして、確信度算定ステップＳ33では、上記のようにして順位付けた１位～１０位の回答候補とその確信度を出力する（回答候補出力ステップＳ335）。

キーワードマッチングステップＳ34では、図４に示すように、質問文に含まれている名詞のリストを作成し（質問文名詞リスト作成ステップＳ341）、回答候補出力ステップＳ335で学習データから選択された最終的な回答候補についてそれぞれのスコアを算出するためのループ処理（回答候補ループＳ342）を行う。

回答候補ループＳ342では、質問文名詞リスト作成ステップＳ341でリストアップされた全ての名詞についてそれぞれの回答候補に出現する個数（出現数：ポイント）を算出するためのループ処理（名詞ループＳ343）を行う。

この名詞ループＳ343では、回答候補となる学習データの質問に含まれる単語が名詞と一致するか否かを判断し（名詞一致判断ステップＳ344）、一致する場合にだけ１ポイントを加算する処理（ポイント加算ステップＳ345）を行う。これにより、質問文に含まれる名詞が各回答候補にどれだけ出現するか（出現数）を算出することができる。

そして、回答候補ループＳ342では、各回答候補ごとに名詞の出現頻度をスコアとして算出する（スコア算出ステップＳ346）。スコアは、各回答候補の総ポイント（出現数）を質問文に含まれている名詞の総数で割った値としている。

回答候補ループＳ342によって各回答候補ごとに質問文の名詞のスコアを算出した後に、学習データの回答ごとに各学習データの質問におけるスコアの最大値を集計（加算）して最大スコアリストを作成し（最大スコアリスト作成ステップＳ347）、最大スコアリストの上位所定数（ここでは、１０個）以外を０としてソフトマックス関数を用いて正規化することで各回答候補の一致率を算出する（一致率算出ステップＳ348）。

このようにして、自然言語処理エンジン９では、ＣＮＮ判別ステップＳ32で選択された回答候補やその確信度をそのまま使用するのではなく、確信度算定ステップＳ33によって質問文と学習データの質問との一致を考慮して補正した各回答候補の確信度を算出し、キーワードマッチングステップＳ34によって質問文と回答候補の名詞の一致率を算出し、これらの確信度と一致率とから最終的な信頼度を算定する（信頼度算定ステップＳ35）。

信頼度算定ステップＳ35では、確信度算定ステップＳ33で算定した各回答候補の確信度とキーワードマッチングステップＳ34で算定した各回答候補の一致率とを用い、各回答候補の最終的な信頼度を、
信頼度＝（確信度＋一致率）／２×0.99
としている。

そして、自然言語処理エンジン９では、最終的な信頼度とともに回答候補を出力する（回答出力ステップＳ４）。

以上に説明したように、上記自然言語処理エンジン９（自然言語処理装置で用いられる自然言語処理方法）では、特定の技術分野での自然言語をコーパス10を用いて分析する際に、コーパス10として、基準となる文章を蓄積した基準コーパス11と、基準コーパス11よりも特定の技術分野での専門性が高い文章を蓄積した専門コーパス12とを組み合わせたものを用いることにしている。また、専門コーパス12として、予め用意された複数の専門コーパス12から選択されたいずれかの専門コーパス12を用いることにしている。

そのため、上記自然言語処理エンジン９では、専門性の高い質問文であってもその技術分野に適したコーパス10によって良好に分析を行うことができる。

また、上記自然言語処理エンジン９では、自然言語の質問文に対してＣＮＮ（Convolutional Neural Network：畳込みニューラルネットワーク）を用いて予め学習させた質問とその回答からなる学習データ８から選択する際に、ベクトル化した質問文及び学習データ８の質問を用いてＣＮＮで処理することにしている。また、質問文及び学習データ８の質問を、それに含まれる各単語のベクトル化と各単語の分散表現とを用いてベクトル化することにしている。

そのため、上記自然言語処理エンジン９では、質問文と学習データ８の質問との近似の正確性を向上させることができる。

さらに、上記自然言語処理エンジン９では、自然言語の質問文に対してＣＮＮを用いて予め学習させた質問とその回答からなる学習データ８から選択する際に、質問文に対してＣＮＮを用いて複数の学習データ８を選択し，各学習データ８における質問文に含まれる名詞の出現率を加味して、各学習データ８の信頼度を決定することにしている。また、各学習データ８の回答に基づいて出現率を算出することにしている。

そのため、上記自然言語処理エンジン９では、質問文と学習データ８の質問との近似（信頼度）の正確性を向上させることができる。

１質疑応答システム
２サーバーコンピューター（自然言語処理装置）
３～６クライアントコンピューター
７電子通信回線網
８Ｑ＆Ａデータベース（学習データ）
９自然言語処理エンジン（自然言語処理プログラム）
10 コーパス
11 基準コーパス
12 専門コーパス

Claims

特定の技術分野での自然言語をコーパスを用いて分析し、自然言語の質問文に対してＣＮＮ（Convolutional Neural Network：畳込みニューラルネットワーク）を用いて予め学習させた質問とその回答からなる学習データから複数の学習データを選択する、自然言語処理装置によって実行される自然言語処理方法において、
コーパスとして、基準となる文章を蓄積した基準コーパスと、基準コーパスよりも特定の技術分野での専門性が高い文章を蓄積した専門コーパスとを組み合わせたものを用い、質問文に対してＣＮＮを用いて、複数の学習データの選択と、選択された各学習データの確信度の算定をして、選択された各学習データにおける前記質問文に含まれる名詞の出現率及び前記確信度を加味して、選択された各学習データの信頼度を決定し、選択された各学習データの回答を当該信頼度とともに出力することを特徴とする自然言語処理方法。
特定の技術分野での自然言語をコーパスを用いて分析し、自然言語の質問文に対してＣＮＮ（Convolutional Neural Network：畳込みニューラルネットワーク）を用いて予め学習させた質問とその回答からなる学習データから複数の学習データを選択する自然言語処理装置において、
コーパスとして、基準となる文章を蓄積した基準コーパスと、基準コーパスよりも特定の技術分野での専門性が高い文章を蓄積した専門コーパスとを組み合わせたものを用い、質問文に対してＣＮＮを用いて、複数の学習データの選択と、選択された各学習データの確信度の算定をして、選択された各学習データにおける前記質問文に含まれる名詞の出現率及び前記確信度を加味して、選択された各学習データの信頼度を決定し、選択された各学習データの回答を当該信頼度とともに出力することを特徴とする自然言語処理装置。
前記専門コーパスとして、予め用意された複数の専門コーパスから選択されたいずれかの専門コーパスを用いることを特徴とする請求項２に記載の自然言語処理装置。