JP2024071158A - 類似文書検索装置及びプログラム - Google Patents

類似文書検索装置及びプログラム Download PDF

Info

Publication number
JP2024071158A
JP2024071158A JP2022181962A JP2022181962A JP2024071158A JP 2024071158 A JP2024071158 A JP 2024071158A JP 2022181962 A JP2022181962 A JP 2022181962A JP 2022181962 A JP2022181962 A JP 2022181962A JP 2024071158 A JP2024071158 A JP 2024071158A
Authority
JP
Japan
Prior art keywords
document
weight
new
existing
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022181962A
Other languages
English (en)
Inventor
和久 大野
Kazuhisa Ono
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dai Nippon Printing Co Ltd
Original Assignee
Dai Nippon Printing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dai Nippon Printing Co Ltd filed Critical Dai Nippon Printing Co Ltd
Priority to JP2022181962A priority Critical patent/JP2024071158A/ja
Publication of JP2024071158A publication Critical patent/JP2024071158A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】新たな手法を用いて一の文書に類似する既存の文書を検索する類似文書検索装置及びプログラムを提供する。【解決手段】類似文書検索装置1は、複数の既存質問文を記憶したFAQ記憶部22と、新規質問文を受け付ける新規文書受付部12と、新規文書受付部12が受け付けた新規質問文に有する各単語の重みを算出する新規重み算出部13と、記憶部20に有し、FAQ記憶部22に記憶された複数の既存質問文の各々に有する各単語の重みと、新規重み算出部13が算出した新規質問文に有する各単語の重みとを用いて、複数の既存質問文のうち新規質問文に類似する既存質問文を取得する類似文書取得部15と、類似文書取得部15による取得結果を出力する結果出力部16と、を備える。【選択図】図1

Description

本発明は、類似文書検索装置及びプログラムに関する。
例えば、顧客からの質問に対して回答をする業務においては、マニュアルや、よくある質問を質問回答形式にまとめたFAQ(Frequently Asked Questions)等を用いて、誰が対応しても同じ回答を行えるように、画一的な対応を行うことが求められる。FAQ等に載っている質問に対しては、誰でも同じ回答を行うことができる。しかし、FAQ等に載っている質問であることが探せないと、FAQ等に記載された回答を行うことができない。また、FAQ等に載っていないイレギュラーな質問に対しては、個々に対応する必要がある。
そこで、目的の文書を検索するためのものとして、「複数の検索対象文書を記憶する検索対象文書記憶手段と、前記検索対象文書を導き出すキーとなる複数の検索キー文書を記憶する検索キー文書記憶手段と、入力された検索文字列に基づいて前記複数の検索対象文書から所定の文書を検索する検索手段と、前記検索手段により検索された前記所定の文書を出力する出力手段とを有する類似文書検索装置であって、前記検索手段は、入力された検索文字列と前記検索キー文書記憶部に記憶された各検索キー文書との類似度と、入力された検索文字列と前記検索対象文書記憶部に記憶された各検索対象文書との類似度とに基づいて、前記検索キー文書と前記検索対象文書との組合せに対する類似度を算出し、算出された前記検索キー文書と前記検索対象文書の組合せに対する類似度に基づいて、所定の検索キー文書と所定の検索対象文書との組合せを検索し、前記出力手段は、検索された前記所定の検索対象文書を出力することを特徴とする類似文書検索装置。」が開示されている(例えば、特許文献1参照)。
特開2020-119171号公報
特許文献1に記載の手法では、検索文字列と質問文書との類似度と、検索文字列と回答文書との類似度とを用いて、質問文書と回答文書との組み合わせに対する類似度を算出した上で、当該組み合わせの類似度に基づいて回答文書を出力している。特許文献1では、検索文字列として質問文書を入力した場合に回答文書を出力させる。これは、質問文書と回答文書とでは、文書の種類が異なることを特許文献1の出願人が考慮した手法である。
一方で、質問文書が類似していれば、回答文書は同じようなものになると考えられる。つまり、質問文書と回答文書との文書の種類の違いを考慮せずとも、質問文書の類似を算出して用いればよいという考え方もある。その場合、質問文書同士の類似を算出する手法の工夫が求められる。
そこで、本発明は、新たな手法を用いて一の文書に類似する既存の文書を検索する類似文書検索装置及びプログラムを提供することを目的とする。
本発明は、以下のような解決手段により、前記課題を解決する。
第1の発明は、複数の既存文書を記憶した文書記憶部と、新規文書を受け付ける文書受付手段と、文書に有する各単語の出現傾向を示す重みを算出する重み算出手段と、前記重み算出手段を用いて、前記文書受付手段が受け付けた前記新規文書に有する各単語の前記重みを算出する新規重み算出手段と、記憶部に有し、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の出現傾向を示す重みと、前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みとを用いて、複数の前記既存文書のうち前記新規文書に類似する前記既存文書を取得する類似文書取得手段と、前記類似文書取得手段による取得結果を出力する結果出力手段と、を備える、類似文書検索装置である。
第2の発明は、第1の発明の類似文書検索装置において、類義語を記憶した類義語記憶部を備え、前記重み算出手段は、前記類義語記憶部から各単語の前記類義語を取得し、取得した前記類義語を含む各単語の前記重みを算出する、類似文書検索装置である。
第3の発明は、第1の発明又は第2の発明の類似文書検索装置において、前記重み算出手段は、前記文書に対して形態素解析をして得られた形態素の前記重みを算出する、類似文書検索装置である。
第4の発明は、第1の発明から第3の発明までのいずれかの類似文書検索装置において、前記重み算出手段は、前記文書に有する各単語の出現頻度を用いて各単語の前記重みを算出する、類似文書検索装置である。
第5の発明は、第1の発明から第4の発明までのいずれかの類似文書検索装置において、前記重み算出手段を用いて、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の前記重みを算出する既存重み算出手段と、前記既存重み算出手段が算出した複数の前記既存文書の各々に有する各単語の前記重みを前記記憶部に記憶する記憶手段と、を備える、類似文書検索装置である。
第6の発明は、第1の発明から第5の発明までのいずれかの類似文書検索装置において、前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みと、前記記憶部に有する前記複数の既存文書の各々に有する各単語の前記重みとを用いて、前記新規文書と各既存文書との類似度を算出する類似度算出手段を備え、前記類似文書取得手段は、前記類似度算出手段が算出した前記類似度が第1規定値以上の前記既存文書を取得する、類似文書検索装置である。
第7の発明は、第6の発明の類似文書検索装置において、前記類似文書取得手段は、前記類似度算出手段が算出した前記類似度が前記第1規定値以上かつ指定数以内の前記既存文書を取得する、類似文書検索装置である。
第8の発明は、第6の発明又は第7の発明の類似文書検索装置において、前記類似度算出手段が算出した前記新規文書と各既存文書との前記類似度が、いずれも前記第1規定値よりも低い第2規定値以下である場合に、前記新規文書の前記文書記憶部への登録を促すメッセージを出力するメッセージ出力手段を備える、類似文書検索装置である。
第9の発明は、第6の発明又は第7の発明の類似文書検索装置において、前記類似度算出手段が算出した前記新規文書と各既存文書との前記類似度が、いずれも前記第1規定値よりも低い第2規定値以下である場合に、前記新規文書を前記文書記憶部に登録する文書登録手段を備える、類似文書検索装置である。
第10の発明は、第1の発明から第9の発明までのいずれかの類似文書検索装置において、前記既存文書は、回答文に対応した質問文であり、前記結果出力手段は、前記既存文書と、前記既存文書に対応する回答文とを対応付けて出力する、類似文書検索装置である。
第11の発明は、第1の発明から第10の発明までのいずれかの類似文書検索装置としてコンピュータを機能させるためのプログラムである。
本発明によれば、新たな手法を用いて一の文書に類似する既存の文書を検索する類似文書検索装置及びプログラムを提供することができる。
本実施形態に係る類似文書検索システムの全体構成図及び類似文書検索装置の機能ブロック図である。 本実施形態に係る類似文書検索装置の記憶部に記憶された各記憶部の例を示す図である。 本実施形態に係る類似文書検索装置の既存質問文の重み算出処理を示すフローチャートである。 本実施形態に係る既存質問文の重み算出処理を説明するための図である。 本実施形態に係る文書に有する各単語の重みの算出に係る説明のための図である。 本実施形態に係る類似文書検索装置の類似文書検索処理を示すフローチャートである。 本実施形態に係る類似文書検索処理を説明するための図である。 本実施形態に係る文書の類似度の算出に係る説明のための図である。 本実施形態に係る端末での画面例を示す図である。
以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
(実施形態)
図1は、本実施形態に係る類似文書検索システム100の全体構成図及び類似文書検索装置1の機能ブロック図である。
図2は、本実施形態に係る類似文書検索装置1の記憶部20に記憶された各記憶部の例を示す図である。
<類似文書検索システム100>
図1に示す類似文書検索システム100は、例えば、端末3の利用者が、顧客からの質問文(新規文書)を入力すると、類似文書検索装置1が、入力した新規質問文に類似する、類似文書検索装置1に既に登録済の既存質問文(既存文書)を検索して、検索結果を端末3に出力する。利用者は、類似文書検索システム100による処理で端末3に出力された検索結果をもとに、新規質問文を、類似文書検索装置1に既存質問文として新たに登録するか否かの判断をする。このように、類似文書検索システム100は、利用者による新規質問文を新たに登録するか否かについての判断を支援することができる。
類似文書検索システム100は、類似文書検索装置1と、端末3とを備える。類似文書検索装置1と端末3とは、通信ネットワークNを介して通信可能に接続されている。図1では、端末3が1台記載されているが、端末3は、複数台あってもよい。
以下の実施形態において、類似文書検索システム100は、FAQ(Frequently Asked Questions)に有する質問文を用いるものを例に説明する。しかし、類似文書検索システム100を利用可能な対象は、これに限定されない。
<類似文書検索装置1>
類似文書検索装置1は、FAQ記憶部22(文書記憶部)に記憶されている既存質問文を用いて、新規質問文(新規文書)に類似する既存質問文を検索し、検索結果を出力する装置である。類似文書検索装置1は、例えば、顧客からの質問を受け付けて回答する企業や、当該企業から委託され、FAQを作成する企業等が有する。類似文書検索装置1は、例えば、1つのサーバによって構成されていてもよいし、複数のサーバによって構成されていてもよく、また、クラウドであってもよい。
類似文書検索装置1は、制御部10と、記憶部20と、通信インタフェース部29とを備える。
制御部10は、類似文書検索装置1の全体を制御する中央処理装置(CPU)である。制御部10は、記憶部20に記憶されているオペレーティングシステム(OS)やアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。
制御部10の説明をする前に、記憶部20について説明する。
記憶部20は、制御部10が各種の処理を実行するために必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶領域である。
記憶部20は、プログラム記憶部21と、FAQ記憶部22と、類義語記憶部23とを備える。
プログラム記憶部21は、各種のプログラムを記憶する記憶領域である。プログラム記憶部21は、類似文書検索プログラム21aを記憶している。類似文書検索プログラム21aは、類似文書検索装置1の制御部10が実行する各種機能(後述する)を行うためのプログラムである。
FAQ記憶部22は、質問文と、質問文に対する回答文とを対応付けて記憶する記憶領域である。
図2(A)に、FAQ記憶部22の例を示す。
図2に例示するFAQ記憶部22は、質問ID(IDentification)に、質問文と回答文とのペアを対応付けて記憶する。
質問IDは、質問文に付された識別情報であり、例えば、質問文を受け付けてFAQ記憶部22に記憶した順に類似文書検索装置1によって付与された1からの連番である。
質問文は、問い合わせ内容のテキストデータであり、例えば、1つの文である。
回答文は、質問文に対する回答のテキストデータである。
類義語記憶部23は、類義語を記憶する記憶領域である。
図2(B)に、類義語記憶部23の例を示す。図2(B)に示す例では、類義語記憶部23は、例えば、「個人番号カード」と「マイナンバーカード」とが類義語であることを示す。なお、類義語記憶部23に記憶させる類義語は、後から随時追加してもよい。また、類義語記憶部23は、一般的な類義語を記憶するものであってもよいし、加えて、例えば、当該業務分野で特有の類義語を記憶してもよい。
次に、制御部10について説明する。
図1の制御部10は、既存重み算出部11(重み算出手段、既存重み算出手段、記憶手段)と、新規文書受付部12(文書受付手段)と、新規重み算出部13(重み算出手段、新規重み算出手段)と、類似度算出部14(類似度算出手段)と、類似文書取得部15(類似文書取得手段)と、結果出力部16(結果出力手段、メッセージ出力手段)とを備える。
既存重み算出部11は、FAQ記憶部22に記憶された複数の既存質問文の各々に有する各単語の出現傾向を示す重みを算出する。より具体的には、既存重み算出部11は、既存質問文の各々に対して形態素解析をして得られた形態素の重みを算出する。以下の例において、既存重み算出部11は、形態素のうち品詞が名詞、形容詞又は動詞の形態素を、特に単語として用いる。しかし、既存重み算出部11は、形態素をそのまま用いてもよい。また、既存重み算出部11は、形態素の正規化を行った後の形態素を用いてもよい。
また、既存重み算出部11は、重みの算出手法として、文書中に含まれる単語の重要度(重み)を示す手法であるTF-IDFを用いる。なお、重みの算出手法としてTF-IDFを用いるものは、一例である。例えば、文書中に含まれる単語の出現頻度を用いて、単語の重要度を算出する方法等の他の手法を用いてもよい。
そして、既存重み算出部11は、算出した各単語に対応する重みを、記憶部20に記憶させる。
新規文書受付部12は、端末3から新規質問文を受け付ける。
新規重み算出部13は、新規文書受付部12が受け付けた新規質問文に有する各単語の出現傾向を示す重みを算出する。ここで、新規重み算出部13による重み算出手法は、既存重み算出部11による算出手法と同様であってよい。
なお、新規重み算出部13は、重みを算出する際に、既存重み算出部11における算出の過程で得られる複数の既存質問文の各々に有する各単語の希少度を利用する。より具体的には、新規重み算出部13は、重みを算出する際に、既存重み算出部11で算出したIDF(Inversed Document Frequency:逆文書頻度)を用いる。
また、新規重み算出部13は、各単語の希少度を用いなくてもよく、例えば、各単語の出現頻度を用いてもよい。その場合には、新規重み算出部13は、新規質問文におけるTF(Term Frequency:単語頻度)だけを用いる。
類似度算出部14は、新規質問文に有する各単語の重みと、既存質問文の各々に有する各単語の重みとを用いて、新規質問文と、各既存質問文との類似度を算出する。ここで、類似度算出部14は、例えば、コサイン類似度を用いて、新規質問文と各既存質問文との類似度を算出する。なお、類似度の算出に関する手法としてコサイン類似度を用いるものは、一例であって、他の手法を用いてもよい。
類似文書取得部15は、類似度算出部14による類似度に基づいて、新規質問文に類似する既存質問文を、FAQ記憶部22から取得する。類似文書取得部15は、例えば、類似度が第1規定値以上である既存質問文を、FAQ記憶部22から取得する。
結果出力部16は、FAQ記憶部22から既存質問文を取得した場合には、少なくとも取得した既存質問文を端末3に出力する。また、結果出力部16は、例えば、類似度が第1規定値以上である既存質問文がなく、いずれも第1規定値よりも低い第2規定値以下である場合に、例えば、新規質問文のFAQ記憶部22への登録を促すメッセージを出力してもよい。
通信インタフェース部29は、通信ネットワークNを介して端末3との間でデータ通信を行うためのインタフェースである。
<端末3>
図1に示す端末3は、利用者が使用する端末である。利用者は、例えば、FAQを作成する者である。利用者は、端末3を用いて質問文を入力し、端末3に出力される検索結果を確認した上で、当該質問文をFAQとして追加するか否かを判断する。
端末3は、例えば、パーソナルコンピュータ(PC)である。端末3は、その他、タブレット等の携帯端末であってもよい。
端末3は、図示しないが、制御部と、記憶部と、入力部と、表示部と、通信インタフェース部等とを備える。
ここで、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、類似文書検索装置1及び端末3は、それぞれ制御部、記憶部等を備えた情報処理装置であり、コンピュータの概念に含まれる。
通信ネットワークNは、類似文書検索装置1と端末3との間でデータの送受信を行うデータ通信網である。通信ネットワークNは、例えば、インターネット回線等であってよく、有線であるか、又は、無線であるかを問わない。
<処理の説明>
次に、類似文書検索装置1の処理について説明する。
前提として、類似文書検索装置1のFAQ記憶部22には、複数の質問文及び質問文に対する回答文が、各々質問IDに対応付けられて既に登録されているものとする。
図3は、本実施形態に係る類似文書検索装置1の既存質問文の重み算出処理を示すフローチャートである。
図4は、本実施形態に係る既存質問文の重み算出処理を説明するための図である。
図5は、本実施形態に係る文書に有する各単語の重みの算出に係る説明のための図である。
類似文書検索装置1の制御部10(既存重み算出部11)は、図3に示す既存質問文の重み算出処理を、新規質問文を受け付ける前に予め行っておく。また、既存質問文の重み算出処理は、例えば、予め少なくとも1回行っておけばよいが、新規質問文の登録があることを考慮し、例えば、月に1回等、定期的に行ってもよい。
図3のステップS(以下、「ステップS」を単に「S」という。)11において、制御部10(既存重み算出部11)は、FAQ記憶部22に記憶された全ての質問文から、質問文に含まれる単語をそれぞれ抽出する。
より具体的には、制御部10は、各質問文に対して形態素解析をして形態素を得る。そして、制御部10は、形態素解析を行って得られた形態素のうち、品詞が名詞、形容詞又は動詞の形態素で構成される単語を得る。当該単語は、形態素の正規化を行った後の形態素で構成されていてもよい。制御部10は、例えば、図示しない用語統一辞書を用いて、形態素の正規化を行うことができる。正規化の例としては、「くる」と「来る」の統一がある。
制御部10は、図4(A)に示すFAQ記憶部22の一部である質問IDと質問文との組み合わせから、質問文ごとに質問文に含まれる単語を取得して、図4(B)に示す表41を得る。
図3のS12において、制御部10(既存重み算出部11)は、抽出した単語の類義語を含めて単語抽出結果を生成する。より具体的には、制御部10は、類義語記憶部23(図2(B))を参照し、抽出した単語に一致する類義語記憶部23のレコードが取得できた場合に、取得したレコードに含まれる他の類義語を、単語に含める。
図4(C)は、単語抽出結果として生成された表42の例を示す。図4(B)の表41には、「個人番号カード」があり、図2(B)に示す類義語記憶部23には、「個人番号カード」の類義語として「マイナンバーカード」が対応付けられている。そのため、制御部10は、「個人番号カード」と「マイナンバーカード」との両方を有する表42を生成する。
図3のS13において、制御部10(既存重み算出部11)は、単語の重み算出処理を行う。ここで、制御部10は、単語の重み計算に、例えば、TF-IDFを用いることができる。
TF-IDFは、例えば、その文書の特徴語を抽出する時に使う値であり、いくつかの文書があったときに、それらに出てくる単語とその頻度とから、ある文書にとって重要な(特徴的な)単語を数値化により示すものである。
TFとは、文書内の出現回数を表し、ある文書内で出現する回数が多ければ、その単語は特徴的な語であり重要である可能性が高いことを示す。
IDFは、単語の出現文書数であり、多くの文書に出現している単語は特徴語になりにくいことを示す。逆に、特定の文書だけに出現する単語は、その文書の特徴的な語であることを示す。
TF-IDFは、上記のTFとIDFとを掛け合わせた値であり、特定の文書にだけ多く出現する単語が高い値を持つ。制御部10が実行する単語の重み算出処理によって算出される重みは、特徴的な単語であるほど大きな値で示される。
図3のS14において、制御部10は、単語の重み算出処理による重み結果を、単語抽出結果に反映させて記憶部20に記憶させる。その後、制御部10は、本処理を終了する。
図4(D)は、表42に単語ごとの重みを対応付けた表43の例を示す。
重みは、上記のTF-IDFの値であるので、同じ単語であっても異なる値を示す場合がある。例えば、表43のレコード43aとレコード43bとは、同じ単語であるが重みが異なる。
ここで、同じ単語であっても文書ごとに重みが異なる点について、図5を用いて説明する。
図5の表51は、文書集合DのIDFを算出した際の各単語tのIDF値を示す。ここで、文書集合Dは、本実施形態におけるFAQ記憶部22に記憶された複数の質問文に対応する。
文書集合Dにおける各単語tのIDFは、以下の式によって算出される。
Figure 2024071158000002
次に、文書dにおける単語tのTF及び文書集合Dがあるときの文書dにおける単語tのTF-IDFは、以下の式によって算出される。
Figure 2024071158000003
なお、TFの計算式として、文書dに含まれる単語数で割ることにより正規化を行っているが、正規化を行わず、文書dにおける単語tの出現回数をそのまま用いてもよい。そこで、表52は、文書dにおける単語tのTF-IDF値を示すが、表52におけるTFの値は、文書dにおける単語tの出現回数をそのまま用いた値によって表現している。
また、上記のIDFについての計算式についても一例であって、例えば、正規化の採用可否で変わる場合がある。
ここで、表52のレコード52aが示す単語「市場」は、出現回数(TF)が多いが、文書集合Dの中では、表51のレコード51aが示すように、低いIDF値になっている。これは、単語「市場」は、文書集合Dの全体においては、出現としては当たり前の語であることを示す。そのため、表52のレコード52aに示す文書dにおける単語「市場」のTF-IDFとしての数値は、低くなる。
他方、表52のレコード52bが示す単語「クラウド」は、文書集合Dの中で特定の文書にしか出現しない語であり、表51のレコード51bが示すように高いIDF値になっている。そのため、表52のレコード52bに示す文書dにおける単語「クラウド」のTF-IDFとしての数値は、高くなり、単語「クラウド」が特徴的な語として扱われることを示す。
次に、類似文書検索処理について説明する。
図6は、本実施形態に係る類似文書検索装置1の類似文書検索処理を示すフローチャートである。
図7は、本実施形態に係る類似文書検索処理を説明するための図である。
図8は、本実施形態に係る文書の類似度の算出に係る説明のための図である。
図9は、本実施形態に係る端末3での画面例を示す図である。
例えば、端末3が類似文書検索装置1に接続し、端末3の利用者により新規質問文の入力がされて、検索の実行のための操作が行われることで、図6に示す類似文書検索処理が開始される。
図6のS21において、制御部10(新規文書受付部12)は、新規質問文の入力を受け付ける。
S22において、制御部10(新規重み算出部13)は、新規質問文に含まれる単語を抽出する。そして、制御部10(新規重み算出部13)は、抽出した単語の類義語を含めて単語抽出結果を生成する。
S23において、制御部10(新規重み算出部13)は、単語の重み算出処理を行う。
制御部10は、上記S22及びS23の処理を、図3のS11からS13までの処理と同様に行えばよい。
S24において、制御部10(類似度算出部14)は、新規質問文の重みと各既存質問文の重みとを用いて、新規質問文と各既存質問文との類似度を算出する。
図7(A)は、新規質問文61の例を示し、図7(B)は、新規質問文61に対して単語を抽出し、重み算出処理を行った結果である表62を示す。
図7(C)は、既存文書の重み算出処理(図3)で算出した表43である。
図7(D)は、新規質問文の重みである表62と、既存質問文の重みである表43とを用いて新規質問文に対する各既存質問文の類似度を示す表63を示す。
ここで、類似度の算出について、図8を用いて説明する。
図8(A)は、既存文書の例として、文書Aと、文書Aのベクトル及びイメージ71を示す。ここで、文書Aのベクトルは、TF-IDFの計算結果である各単語の重みを用いて作成され、単語の数だけの次元を有する。
図8(B)は、既存文書の例として、文書Bと、文書Bのベクトル及びイメージ72を示す。文書Bのベクトルも同様に、TF-IDFの計算結果である各単語の重みを用いて作成される。
図8(C)は、新規文書の例としての文書xが、文書Aと文書Bとのうちいずれに類似しているかを、文書xのベクトルが、文書Aのベクトルと文書Bのベクトルとのうちいずれに近いかにより示すイメージ73の例を示す。
ここで、制御部10は、2つの文書の類似度を、コサイン類似度を用いて算出する。
文書xと類似度計算対象文書yとのコサイン類似度は、以下の式によって算出される。
Figure 2024071158000004
図8(C)の例では、イメージ73を参照すると、文書xのベクトルと文書Aのベクトルとのなす角が、文書xのベクトルと文書Bのベクトルとのなす角よりも小さい。ここで、ベクトルのなす角が小さい対象文書が、類似度が高い文書になる。そのため、文書xは、文書Bよりも文書Aに類似していることを示す。
図6のS25において、制御部10(類似文書取得部15)は、類似度が第1規定値以上の質問文があるか否かを判断する。ここで、第1規定値は、任意に設定可能であるが、経験則としては、例えば、0.6程度以上である。類似度が第1規定値以上の質問文がある場合(S25:YES)には、制御部10は、処理をS26に移す。他方、類似度が第1規定値以上の質問文がない場合(S25:NO)には、制御部10は、処理をS29に移す。
図7(D)に示す表63によれば、質問IDが1の既存質問文の類似度が0.8であり、質問IDが2の既存質問文の類似度が0.7であるので、いずれも類似度が第1規定値以上であり、新規質問文に類似するものであることを示す。他方、質問IDが10の既存質問文の類似度が0.5であるため、新規質問文に類似していないものであることを示す。
図6のS26において、制御部10(類似文書取得部15)は、類似度が第1規定値以上である上位N件まで(Nは、任意の自然数であり、例えば、5)の質問文を含むレコードを、FAQ記憶部22から抽出する。
S27において、制御部10(結果出力部16)は、抽出したレコードに基づくFAQを、端末3に出力する。その後、制御部10は、本処理を終了する。
他方、S29において、制御部10は、新規質問文に類似するFAQがない旨を、端末3に出力し、本処理を終了する。なお、制御部10は、類似度が第1規定値より小さい第2規定値以下の質問文のみであった場合には、例えば、新規質問文をFAQ記憶部22に登録するように促すメッセージを出力してもよい。第2規定値は、任意に設定可能であるが、経験則としては、例えば、0.4程度である。
図9は、類似文書検索処理での端末3での画面例を示す。
図9(A)に、質問文の入力時における画面90の例を示す。
画面90は、入力欄90aと、実行ボタン90bとを含む。端末3の利用者は、入力欄90aに質問文を入力した後に、ポインタPによって実行ボタン90bを選択操作する。
そうすることで、制御部10は、図9(A)に示す画面90から画面を変更し、図9(B)に示す画面90を出力する。
図9(B)は、図9(A)に対して検索結果領域90cが追加された画面90である。
検索結果領域90cは、質問IDと、質問文と、回答文と、類似度との対応付けを出力する。検索結果領域90cには、類似度が第1規定値以上の上位N件のFAQ及びその類似度を出力している。
利用者は、画面90の検索結果領域90cを参照して、質問文をFAQに追加するか否かを判断することができる。
このように、本実施形態の類似文書検索装置1によれば、以下のような効果がある。
(1)FAQ記憶部22に記憶された複数の既存質問文の各々に有する各単語の出現傾向を示す重みを算出して記憶しておき、新規質問文を端末3から受け付けると、受け付けた新規質問文に有する各単語の重みを算出し、複数の既存質問文の各々に有する各単語の重みと、新規質問文に有する各単語の重みとを用いて、複数の既存質問文のうち新規質問文に類似する既存質問文を取得して、取得結果を端末3に出力する。
よって、質問文に有する各単語の出現傾向を示す重みを用いた新たな手法を用いて、新規質問文に類似する既存質問文を取得して出力することができる。そして、表記上の文字列や単語が異なっていても、新規質問文に類似する既存質問文を提示することができる。
(2)類義語を記憶した類義語記憶部23から各単語の類義語を取得し、取得した類義語を含めて各単語の重みを算出する。
よって、質問文に含まれる単語に類義語を考慮して、各単語の重みを算出できる。その結果、同じ意味で言葉が異なる語が用いられていても、適切に類似するものを取得できるようになる。
(3)文書に対して形態素解析をして得られた形態素の重みを算出する。
よって、文書を構成する形態素を用いた重みを用いて、新規質問文に類似する既存質問文を取得することができる。
(4)FAQ記憶部22に記憶された複数の既存質問文の各々に有する各単語の出現頻度(希少度等)を用いて、新規質問文に有する各単語の重みを算出する。
より具体的には、TF-IDFを用いて複数の既存質問文の各々に有する各単語の重みや新規質問文に有する各単語の重みを算出する。
よって、出現頻度を考慮した単語の重みを用いて、新規質問文に類似する既存質問文を取得することができる。
(5)新規質問文に有する各単語の重みと、複数の既存質問文の各々に有する各単語の重みとを用いて、新規質問文と、各既存質問文との類似度を算出する。そして、算出した類似度が第1規定値以上の既存質問文を、FAQ記憶部22から取得する。
よって、質問文に含まれる単語の重みを用いて、文書間の類似度を算出することができる。また、文書間の類似度に基づいて新規質問文に類似する既存質問文を取得できる。
(6)算出した類似度が第1規定値以上かつ指定数以内の既存質問文を、FAQ記憶部22から取得する。
また、新規質問文と各既存質問文との類似度がいずれも第1規定値よりも低い第2規定値以下である場合に、新規質問文のFAQ記憶部22への登録を促すメッセージを、端末3に対して出力する。
よって、類似度についての規定値を用いて、類似する既存質問文を取得したり、新規質問文の登録を促したりすることができる。
(7)新規質問文に類似する既存質問文と、既存質問文に対応する回答文とを対応付けて、端末3に出力する。
よって、質問文だけではなく回答文も含めて、利用者が新規質問文に類似するか否かを判断できる。
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。
(変形形態)
(1)本実施形態では、質問文を例に説明をしたが、これに限定されない。他の文書であってもよい。
(2)本実施形態では、各単語の重みを、TF-IDFを用いて算出したものを用いるものを例に説明したが、これに限定されない。例えば、ディープラーニング等を用いて各単語の重み付けをするものであってもよい。
(3)本実施形態では、新規質問文と各既存質問文との類似度がいずれも第2規定値以下である場合に、登録を促すメッセージを出力するものを例に説明したが、これに限定されない。例えば、類似文書検索装置の制御部(文書登録手段)は、新規質問文と各既存質問文との類似度がいずれも第2規定値以下である場合に、新規質問文をFAQ記憶部に自動的に登録するようにしてもよい。
(4)本実施形態では、新規質問文の検索結果として、類似する既存質問文と回答文と類似度とを出力するものを例に説明したが、これに限定されない。少なくとも、類似する既存質問文を出力すればよい。
(5)本実施形態では、類似文書検索装置がFAQ記憶部と類義語記憶部とを備える構成のものを説明したが、これに限定されない、類似文書検索装置とは異なる装置にFAQ記憶部と類義語記憶部とを備え、類似文書検索装置に対してFAQ記憶部及び類義語記憶部を備える装置が通信可能に接続された構成であってもよい。
(6)本実施形態では、類似文書検索装置と端末とからなるものを説明したが、これに限定されない、類似文書検索装置が入力部及び出力部を備えたスタンドアロンの構成であってもよい。
1 類似文書検索装置
3 端末
10 制御部
11 既存重み算出部
12 新規文書受付部
13 新規重み算出部
14 類似度算出部
15 類似文書取得部
16 結果出力部
20 記憶部
21 プログラム記憶部
21a 類似文書検索プログラム
22 FAQ記憶部
23 類義語記憶部
90 画面
100 類似文書検索システム

Claims (11)

  1. 複数の既存文書を記憶した文書記憶部と、
    新規文書を受け付ける文書受付手段と、
    文書に有する各単語の出現傾向を示す重みを算出する重み算出手段と、
    前記重み算出手段を用いて、前記文書受付手段が受け付けた前記新規文書に有する各単語の前記重みを算出する新規重み算出手段と、
    記憶部に有し、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の出現傾向を示す重みと、前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みとを用いて、複数の前記既存文書のうち前記新規文書に類似する前記既存文書を取得する類似文書取得手段と、
    前記類似文書取得手段による取得結果を出力する結果出力手段と、
    を備える、類似文書検索装置。
  2. 請求項1に記載の類似文書検索装置において、
    類義語を記憶した類義語記憶部を備え、
    前記重み算出手段は、前記類義語記憶部から各単語の前記類義語を取得し、取得した前記類義語を含む各単語の前記重みを算出する、類似文書検索装置。
  3. 請求項1に記載の類似文書検索装置において、
    前記重み算出手段は、前記文書に対して形態素解析をして得られた形態素の前記重みを算出する、類似文書検索装置。
  4. 請求項1に記載の類似文書検索装置において、
    前記重み算出手段は、前記文書に有する各単語の出現頻度を用いて各単語の前記重みを算出する、類似文書検索装置。
  5. 請求項1に記載の類似文書検索装置において、
    前記重み算出手段を用いて、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の前記重みを算出する既存重み算出手段と、
    前記既存重み算出手段が算出した複数の前記既存文書の各々に有する各単語の前記重みを前記記憶部に記憶する記憶手段と、
    を備える、類似文書検索装置。
  6. 請求項1から請求項5までのいずれかに記載の類似文書検索装置において、
    前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みと、前記記憶部に有する前記複数の既存文書の各々に有する各単語の前記重みとを用いて、前記新規文書と各既存文書との類似度を算出する類似度算出手段を備え、
    前記類似文書取得手段は、前記類似度算出手段が算出した前記類似度が第1規定値以上の前記既存文書を取得する、類似文書検索装置。
  7. 請求項6記載の類似文書検索装置において、
    前記類似文書取得手段は、前記類似度算出手段が算出した前記類似度が前記第1規定値以上かつ指定数以内の前記既存文書を取得する、類似文書検索装置。
  8. 請求項6記載の類似文書検索装置において、
    前記類似度算出手段が算出した前記新規文書と各既存文書との前記類似度が、いずれも前記第1規定値よりも低い第2規定値以下である場合に、前記新規文書の前記文書記憶部への登録を促すメッセージを出力するメッセージ出力手段を備える、類似文書検索装置。
  9. 請求項6記載の類似文書検索装置において、
    前記類似度算出手段が算出した前記新規文書と各既存文書との前記類似度が、いずれも前記第1規定値よりも低い第2規定値以下である場合に、前記新規文書を前記文書記憶部に登録する文書登録手段を備える、類似文書検索装置。
  10. 請求項1から請求項5までのいずれか記載の類似文書検索装置において、
    前記既存文書は、回答文に対応した質問文であり、
    前記結果出力手段は、前記既存文書と、前記既存文書に対応する回答文とを対応付けて出力する、類似文書検索装置。
  11. 複数の既存文書を記憶した文書記憶部を備えるコンピュータが実行するプログラムであって、
    前記コンピュータは、
    前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の出現傾向を示す重みを記憶する記憶部を備え、
    前記コンピュータを、
    新規文書を受け付ける文書受付手段と、
    文書に有する各単語の出現傾向を示す重みを算出する重み算出手段と、
    前記重み算出手段を用いて、前記文書受付手段が受け付けた前記新規文書に有する各単語の前記重みを算出する新規重み算出手段と、
    前記記憶部に有し、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の出現傾向を示す重みと、前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みとを用いて、複数の前記既存文書のうち前記新規文書に類似する前記既存文書を取得する類似文書取得手段と、
    前記類似文書取得手段による取得結果を出力する結果出力手段と、
    して機能させるためのプログラム。
JP2022181962A 2022-11-14 2022-11-14 類似文書検索装置及びプログラム Pending JP2024071158A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022181962A JP2024071158A (ja) 2022-11-14 2022-11-14 類似文書検索装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022181962A JP2024071158A (ja) 2022-11-14 2022-11-14 類似文書検索装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2024071158A true JP2024071158A (ja) 2024-05-24

Family

ID=91129112

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022181962A Pending JP2024071158A (ja) 2022-11-14 2022-11-14 類似文書検索装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2024071158A (ja)

Similar Documents

Publication Publication Date Title
US11334635B2 (en) Domain specific natural language understanding of customer intent in self-help
WO2019201098A1 (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
US9767183B2 (en) Method and system for enhanced query term suggestion
US8082264B2 (en) Automated scheme for identifying user intent in real-time
US20140006012A1 (en) Learning-Based Processing of Natural Language Questions
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
CN109522397B (zh) 信息处理方法及装置
JP2002132812A (ja) 質問応答方法、質問応答システム及び質問応答プログラムを記録した記録媒体
JP2020160159A (ja) 採点装置、採点方法およびプログラム
JP2020009117A (ja) 検索装置およびプログラム
WO2019192122A1 (zh) 文档主题参数提取方法、产品推荐方法、设备及存储介质
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN116701593A (zh) 基于GraphQL的中文问答模型训练方法及其相关设备
JP2021114070A (ja) 情報検索装置、情報検索方法、および情報検索プログラム
CN110705308A (zh) 语音信息的领域识别方法、装置、存储介质及电子设备
CN115964474A (zh) 一种政策关键词抽取方法、装置、存储介质及电子设备
JP2024071158A (ja) 類似文書検索装置及びプログラム
CN109284364B (zh) 一种用于语音连麦互动的互动词汇更新方法及装置
CN113505293A (zh) 信息推送方法、装置、电子设备及存储介质
JP2010282403A (ja) 文書検索方法
US20180349358A1 (en) Non-transitory computer-readable storage medium, information processing device, and information generation method
JP7131518B2 (ja) 電子機器、発音学習方法、サーバ装置、発音学習処理システムおよびプログラム
Sadeghi et al. How well does Google work with Persian documents?
US20230177859A1 (en) Document Processing Method, and Information Processing Device
JP7485986B2 (ja) 情報処理方法、情報処理装置、及びプログラム