JP2024071158A

JP2024071158A - 類似文書検索装置及びプログラム

Info

Publication number: JP2024071158A
Application number: JP2022181962A
Authority: JP
Inventors: 和久大野; Kazuhisa Ono
Original assignee: Dai Nippon Printing Co Ltd
Current assignee: Dai Nippon Printing Co Ltd
Priority date: 2022-11-14
Filing date: 2022-11-14
Publication date: 2024-05-24

Abstract

【課題】新たな手法を用いて一の文書に類似する既存の文書を検索する類似文書検索装置及びプログラムを提供する。【解決手段】類似文書検索装置１は、複数の既存質問文を記憶したＦＡＱ記憶部２２と、新規質問文を受け付ける新規文書受付部１２と、新規文書受付部１２が受け付けた新規質問文に有する各単語の重みを算出する新規重み算出部１３と、記憶部２０に有し、ＦＡＱ記憶部２２に記憶された複数の既存質問文の各々に有する各単語の重みと、新規重み算出部１３が算出した新規質問文に有する各単語の重みとを用いて、複数の既存質問文のうち新規質問文に類似する既存質問文を取得する類似文書取得部１５と、類似文書取得部１５による取得結果を出力する結果出力部１６と、を備える。【選択図】図１

Description

本発明は、類似文書検索装置及びプログラムに関する。

例えば、顧客からの質問に対して回答をする業務においては、マニュアルや、よくある質問を質問回答形式にまとめたＦＡＱ（ＦｒｅｑｕｅｎｔｌｙＡｓｋｅｄＱｕｅｓｔｉｏｎｓ）等を用いて、誰が対応しても同じ回答を行えるように、画一的な対応を行うことが求められる。ＦＡＱ等に載っている質問に対しては、誰でも同じ回答を行うことができる。しかし、ＦＡＱ等に載っている質問であることが探せないと、ＦＡＱ等に記載された回答を行うことができない。また、ＦＡＱ等に載っていないイレギュラーな質問に対しては、個々に対応する必要がある。

そこで、目的の文書を検索するためのものとして、「複数の検索対象文書を記憶する検索対象文書記憶手段と、前記検索対象文書を導き出すキーとなる複数の検索キー文書を記憶する検索キー文書記憶手段と、入力された検索文字列に基づいて前記複数の検索対象文書から所定の文書を検索する検索手段と、前記検索手段により検索された前記所定の文書を出力する出力手段とを有する類似文書検索装置であって、前記検索手段は、入力された検索文字列と前記検索キー文書記憶部に記憶された各検索キー文書との類似度と、入力された検索文字列と前記検索対象文書記憶部に記憶された各検索対象文書との類似度とに基づいて、前記検索キー文書と前記検索対象文書との組合せに対する類似度を算出し、算出された前記検索キー文書と前記検索対象文書の組合せに対する類似度に基づいて、所定の検索キー文書と所定の検索対象文書との組合せを検索し、前記出力手段は、検索された前記所定の検索対象文書を出力することを特徴とする類似文書検索装置。」が開示されている（例えば、特許文献１参照）。

特開２０２０－１１９１７１号公報

特許文献１に記載の手法では、検索文字列と質問文書との類似度と、検索文字列と回答文書との類似度とを用いて、質問文書と回答文書との組み合わせに対する類似度を算出した上で、当該組み合わせの類似度に基づいて回答文書を出力している。特許文献１では、検索文字列として質問文書を入力した場合に回答文書を出力させる。これは、質問文書と回答文書とでは、文書の種類が異なることを特許文献１の出願人が考慮した手法である。
一方で、質問文書が類似していれば、回答文書は同じようなものになると考えられる。つまり、質問文書と回答文書との文書の種類の違いを考慮せずとも、質問文書の類似を算出して用いればよいという考え方もある。その場合、質問文書同士の類似を算出する手法の工夫が求められる。

そこで、本発明は、新たな手法を用いて一の文書に類似する既存の文書を検索する類似文書検索装置及びプログラムを提供することを目的とする。

本発明は、以下のような解決手段により、前記課題を解決する。
第１の発明は、複数の既存文書を記憶した文書記憶部と、新規文書を受け付ける文書受付手段と、文書に有する各単語の出現傾向を示す重みを算出する重み算出手段と、前記重み算出手段を用いて、前記文書受付手段が受け付けた前記新規文書に有する各単語の前記重みを算出する新規重み算出手段と、記憶部に有し、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の出現傾向を示す重みと、前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みとを用いて、複数の前記既存文書のうち前記新規文書に類似する前記既存文書を取得する類似文書取得手段と、前記類似文書取得手段による取得結果を出力する結果出力手段と、を備える、類似文書検索装置である。
第２の発明は、第１の発明の類似文書検索装置において、類義語を記憶した類義語記憶部を備え、前記重み算出手段は、前記類義語記憶部から各単語の前記類義語を取得し、取得した前記類義語を含む各単語の前記重みを算出する、類似文書検索装置である。
第３の発明は、第１の発明又は第２の発明の類似文書検索装置において、前記重み算出手段は、前記文書に対して形態素解析をして得られた形態素の前記重みを算出する、類似文書検索装置である。
第４の発明は、第１の発明から第３の発明までのいずれかの類似文書検索装置において、前記重み算出手段は、前記文書に有する各単語の出現頻度を用いて各単語の前記重みを算出する、類似文書検索装置である。
第５の発明は、第１の発明から第４の発明までのいずれかの類似文書検索装置において、前記重み算出手段を用いて、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の前記重みを算出する既存重み算出手段と、前記既存重み算出手段が算出した複数の前記既存文書の各々に有する各単語の前記重みを前記記憶部に記憶する記憶手段と、を備える、類似文書検索装置である。
第６の発明は、第１の発明から第５の発明までのいずれかの類似文書検索装置において、前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みと、前記記憶部に有する前記複数の既存文書の各々に有する各単語の前記重みとを用いて、前記新規文書と各既存文書との類似度を算出する類似度算出手段を備え、前記類似文書取得手段は、前記類似度算出手段が算出した前記類似度が第１規定値以上の前記既存文書を取得する、類似文書検索装置である。
第７の発明は、第６の発明の類似文書検索装置において、前記類似文書取得手段は、前記類似度算出手段が算出した前記類似度が前記第１規定値以上かつ指定数以内の前記既存文書を取得する、類似文書検索装置である。
第８の発明は、第６の発明又は第７の発明の類似文書検索装置において、前記類似度算出手段が算出した前記新規文書と各既存文書との前記類似度が、いずれも前記第１規定値よりも低い第２規定値以下である場合に、前記新規文書の前記文書記憶部への登録を促すメッセージを出力するメッセージ出力手段を備える、類似文書検索装置である。
第９の発明は、第６の発明又は第７の発明の類似文書検索装置において、前記類似度算出手段が算出した前記新規文書と各既存文書との前記類似度が、いずれも前記第１規定値よりも低い第２規定値以下である場合に、前記新規文書を前記文書記憶部に登録する文書登録手段を備える、類似文書検索装置である。
第１０の発明は、第１の発明から第９の発明までのいずれかの類似文書検索装置において、前記既存文書は、回答文に対応した質問文であり、前記結果出力手段は、前記既存文書と、前記既存文書に対応する回答文とを対応付けて出力する、類似文書検索装置である。
第１１の発明は、第１の発明から第１０の発明までのいずれかの類似文書検索装置としてコンピュータを機能させるためのプログラムである。

本発明によれば、新たな手法を用いて一の文書に類似する既存の文書を検索する類似文書検索装置及びプログラムを提供することができる。

本実施形態に係る類似文書検索システムの全体構成図及び類似文書検索装置の機能ブロック図である。本実施形態に係る類似文書検索装置の記憶部に記憶された各記憶部の例を示す図である。本実施形態に係る類似文書検索装置の既存質問文の重み算出処理を示すフローチャートである。本実施形態に係る既存質問文の重み算出処理を説明するための図である。本実施形態に係る文書に有する各単語の重みの算出に係る説明のための図である。本実施形態に係る類似文書検索装置の類似文書検索処理を示すフローチャートである。本実施形態に係る類似文書検索処理を説明するための図である。本実施形態に係る文書の類似度の算出に係る説明のための図である。本実施形態に係る端末での画面例を示す図である。

以下、本発明を実施するための形態について、図を参照しながら説明する。なお、これは、あくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
（実施形態）
図１は、本実施形態に係る類似文書検索システム１００の全体構成図及び類似文書検索装置１の機能ブロック図である。
図２は、本実施形態に係る類似文書検索装置１の記憶部２０に記憶された各記憶部の例を示す図である。

＜類似文書検索システム１００＞
図１に示す類似文書検索システム１００は、例えば、端末３の利用者が、顧客からの質問文（新規文書）を入力すると、類似文書検索装置１が、入力した新規質問文に類似する、類似文書検索装置１に既に登録済の既存質問文（既存文書）を検索して、検索結果を端末３に出力する。利用者は、類似文書検索システム１００による処理で端末３に出力された検索結果をもとに、新規質問文を、類似文書検索装置１に既存質問文として新たに登録するか否かの判断をする。このように、類似文書検索システム１００は、利用者による新規質問文を新たに登録するか否かについての判断を支援することができる。

類似文書検索システム１００は、類似文書検索装置１と、端末３とを備える。類似文書検索装置１と端末３とは、通信ネットワークＮを介して通信可能に接続されている。図１では、端末３が１台記載されているが、端末３は、複数台あってもよい。
以下の実施形態において、類似文書検索システム１００は、ＦＡＱ（ＦｒｅｑｕｅｎｔｌｙＡｓｋｅｄＱｕｅｓｔｉｏｎｓ）に有する質問文を用いるものを例に説明する。しかし、類似文書検索システム１００を利用可能な対象は、これに限定されない。

＜類似文書検索装置１＞
類似文書検索装置１は、ＦＡＱ記憶部２２（文書記憶部）に記憶されている既存質問文を用いて、新規質問文（新規文書）に類似する既存質問文を検索し、検索結果を出力する装置である。類似文書検索装置１は、例えば、顧客からの質問を受け付けて回答する企業や、当該企業から委託され、ＦＡＱを作成する企業等が有する。類似文書検索装置１は、例えば、１つのサーバによって構成されていてもよいし、複数のサーバによって構成されていてもよく、また、クラウドであってもよい。

類似文書検索装置１は、制御部１０と、記憶部２０と、通信インタフェース部２９とを備える。
制御部１０は、類似文書検索装置１の全体を制御する中央処理装置（ＣＰＵ）である。制御部１０は、記憶部２０に記憶されているオペレーティングシステム（ＯＳ）やアプリケーションプログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、各種機能を実行する。

制御部１０の説明をする前に、記憶部２０について説明する。
記憶部２０は、制御部１０が各種の処理を実行するために必要なプログラム、データ等を記憶するためのハードディスク、半導体メモリ素子等の記憶領域である。
記憶部２０は、プログラム記憶部２１と、ＦＡＱ記憶部２２と、類義語記憶部２３とを備える。
プログラム記憶部２１は、各種のプログラムを記憶する記憶領域である。プログラム記憶部２１は、類似文書検索プログラム２１ａを記憶している。類似文書検索プログラム２１ａは、類似文書検索装置１の制御部１０が実行する各種機能（後述する）を行うためのプログラムである。

ＦＡＱ記憶部２２は、質問文と、質問文に対する回答文とを対応付けて記憶する記憶領域である。
図２（Ａ）に、ＦＡＱ記憶部２２の例を示す。
図２に例示するＦＡＱ記憶部２２は、質問ＩＤ（ＩＤｅｎｔｉｆｉｃａｔｉｏｎ）に、質問文と回答文とのペアを対応付けて記憶する。
質問ＩＤは、質問文に付された識別情報であり、例えば、質問文を受け付けてＦＡＱ記憶部２２に記憶した順に類似文書検索装置１によって付与された１からの連番である。
質問文は、問い合わせ内容のテキストデータであり、例えば、１つの文である。
回答文は、質問文に対する回答のテキストデータである。

類義語記憶部２３は、類義語を記憶する記憶領域である。
図２（Ｂ）に、類義語記憶部２３の例を示す。図２（Ｂ）に示す例では、類義語記憶部２３は、例えば、「個人番号カード」と「マイナンバーカード」とが類義語であることを示す。なお、類義語記憶部２３に記憶させる類義語は、後から随時追加してもよい。また、類義語記憶部２３は、一般的な類義語を記憶するものであってもよいし、加えて、例えば、当該業務分野で特有の類義語を記憶してもよい。

次に、制御部１０について説明する。
図１の制御部１０は、既存重み算出部１１（重み算出手段、既存重み算出手段、記憶手段）と、新規文書受付部１２（文書受付手段）と、新規重み算出部１３（重み算出手段、新規重み算出手段）と、類似度算出部１４（類似度算出手段）と、類似文書取得部１５（類似文書取得手段）と、結果出力部１６（結果出力手段、メッセージ出力手段）とを備える。

既存重み算出部１１は、ＦＡＱ記憶部２２に記憶された複数の既存質問文の各々に有する各単語の出現傾向を示す重みを算出する。より具体的には、既存重み算出部１１は、既存質問文の各々に対して形態素解析をして得られた形態素の重みを算出する。以下の例において、既存重み算出部１１は、形態素のうち品詞が名詞、形容詞又は動詞の形態素を、特に単語として用いる。しかし、既存重み算出部１１は、形態素をそのまま用いてもよい。また、既存重み算出部１１は、形態素の正規化を行った後の形態素を用いてもよい。
また、既存重み算出部１１は、重みの算出手法として、文書中に含まれる単語の重要度（重み）を示す手法であるＴＦ－ＩＤＦを用いる。なお、重みの算出手法としてＴＦ－ＩＤＦを用いるものは、一例である。例えば、文書中に含まれる単語の出現頻度を用いて、単語の重要度を算出する方法等の他の手法を用いてもよい。
そして、既存重み算出部１１は、算出した各単語に対応する重みを、記憶部２０に記憶させる。

新規文書受付部１２は、端末３から新規質問文を受け付ける。
新規重み算出部１３は、新規文書受付部１２が受け付けた新規質問文に有する各単語の出現傾向を示す重みを算出する。ここで、新規重み算出部１３による重み算出手法は、既存重み算出部１１による算出手法と同様であってよい。
なお、新規重み算出部１３は、重みを算出する際に、既存重み算出部１１における算出の過程で得られる複数の既存質問文の各々に有する各単語の希少度を利用する。より具体的には、新規重み算出部１３は、重みを算出する際に、既存重み算出部１１で算出したＩＤＦ（ＩｎｖｅｒｓｅｄＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ：逆文書頻度）を用いる。
また、新規重み算出部１３は、各単語の希少度を用いなくてもよく、例えば、各単語の出現頻度を用いてもよい。その場合には、新規重み算出部１３は、新規質問文におけるＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ：単語頻度）だけを用いる。

類似度算出部１４は、新規質問文に有する各単語の重みと、既存質問文の各々に有する各単語の重みとを用いて、新規質問文と、各既存質問文との類似度を算出する。ここで、類似度算出部１４は、例えば、コサイン類似度を用いて、新規質問文と各既存質問文との類似度を算出する。なお、類似度の算出に関する手法としてコサイン類似度を用いるものは、一例であって、他の手法を用いてもよい。
類似文書取得部１５は、類似度算出部１４による類似度に基づいて、新規質問文に類似する既存質問文を、ＦＡＱ記憶部２２から取得する。類似文書取得部１５は、例えば、類似度が第１規定値以上である既存質問文を、ＦＡＱ記憶部２２から取得する。

結果出力部１６は、ＦＡＱ記憶部２２から既存質問文を取得した場合には、少なくとも取得した既存質問文を端末３に出力する。また、結果出力部１６は、例えば、類似度が第１規定値以上である既存質問文がなく、いずれも第１規定値よりも低い第２規定値以下である場合に、例えば、新規質問文のＦＡＱ記憶部２２への登録を促すメッセージを出力してもよい。
通信インタフェース部２９は、通信ネットワークＮを介して端末３との間でデータ通信を行うためのインタフェースである。

＜端末３＞
図１に示す端末３は、利用者が使用する端末である。利用者は、例えば、ＦＡＱを作成する者である。利用者は、端末３を用いて質問文を入力し、端末３に出力される検索結果を確認した上で、当該質問文をＦＡＱとして追加するか否かを判断する。
端末３は、例えば、パーソナルコンピュータ（ＰＣ）である。端末３は、その他、タブレット等の携帯端末であってもよい。
端末３は、図示しないが、制御部と、記憶部と、入力部と、表示部と、通信インタフェース部等とを備える。

ここで、コンピュータとは、制御部、記憶装置等を備えた情報処理装置をいい、類似文書検索装置１及び端末３は、それぞれ制御部、記憶部等を備えた情報処理装置であり、コンピュータの概念に含まれる。
通信ネットワークＮは、類似文書検索装置１と端末３との間でデータの送受信を行うデータ通信網である。通信ネットワークＮは、例えば、インターネット回線等であってよく、有線であるか、又は、無線であるかを問わない。

＜処理の説明＞
次に、類似文書検索装置１の処理について説明する。
前提として、類似文書検索装置１のＦＡＱ記憶部２２には、複数の質問文及び質問文に対する回答文が、各々質問ＩＤに対応付けられて既に登録されているものとする。
図３は、本実施形態に係る類似文書検索装置１の既存質問文の重み算出処理を示すフローチャートである。
図４は、本実施形態に係る既存質問文の重み算出処理を説明するための図である。
図５は、本実施形態に係る文書に有する各単語の重みの算出に係る説明のための図である。

類似文書検索装置１の制御部１０（既存重み算出部１１）は、図３に示す既存質問文の重み算出処理を、新規質問文を受け付ける前に予め行っておく。また、既存質問文の重み算出処理は、例えば、予め少なくとも１回行っておけばよいが、新規質問文の登録があることを考慮し、例えば、月に１回等、定期的に行ってもよい。
図３のステップＳ（以下、「ステップＳ」を単に「Ｓ」という。）１１において、制御部１０（既存重み算出部１１）は、ＦＡＱ記憶部２２に記憶された全ての質問文から、質問文に含まれる単語をそれぞれ抽出する。

より具体的には、制御部１０は、各質問文に対して形態素解析をして形態素を得る。そして、制御部１０は、形態素解析を行って得られた形態素のうち、品詞が名詞、形容詞又は動詞の形態素で構成される単語を得る。当該単語は、形態素の正規化を行った後の形態素で構成されていてもよい。制御部１０は、例えば、図示しない用語統一辞書を用いて、形態素の正規化を行うことができる。正規化の例としては、「くる」と「来る」の統一がある。
制御部１０は、図４（Ａ）に示すＦＡＱ記憶部２２の一部である質問ＩＤと質問文との組み合わせから、質問文ごとに質問文に含まれる単語を取得して、図４（Ｂ）に示す表４１を得る。

図３のＳ１２において、制御部１０（既存重み算出部１１）は、抽出した単語の類義語を含めて単語抽出結果を生成する。より具体的には、制御部１０は、類義語記憶部２３（図２（Ｂ））を参照し、抽出した単語に一致する類義語記憶部２３のレコードが取得できた場合に、取得したレコードに含まれる他の類義語を、単語に含める。
図４（Ｃ）は、単語抽出結果として生成された表４２の例を示す。図４（Ｂ）の表４１には、「個人番号カード」があり、図２（Ｂ）に示す類義語記憶部２３には、「個人番号カード」の類義語として「マイナンバーカード」が対応付けられている。そのため、制御部１０は、「個人番号カード」と「マイナンバーカード」との両方を有する表４２を生成する。

図３のＳ１３において、制御部１０（既存重み算出部１１）は、単語の重み算出処理を行う。ここで、制御部１０は、単語の重み計算に、例えば、ＴＦ－ＩＤＦを用いることができる。
ＴＦ－ＩＤＦは、例えば、その文書の特徴語を抽出する時に使う値であり、いくつかの文書があったときに、それらに出てくる単語とその頻度とから、ある文書にとって重要な（特徴的な）単語を数値化により示すものである。
ＴＦとは、文書内の出現回数を表し、ある文書内で出現する回数が多ければ、その単語は特徴的な語であり重要である可能性が高いことを示す。
ＩＤＦは、単語の出現文書数であり、多くの文書に出現している単語は特徴語になりにくいことを示す。逆に、特定の文書だけに出現する単語は、その文書の特徴的な語であることを示す。
ＴＦ－ＩＤＦは、上記のＴＦとＩＤＦとを掛け合わせた値であり、特定の文書にだけ多く出現する単語が高い値を持つ。制御部１０が実行する単語の重み算出処理によって算出される重みは、特徴的な単語であるほど大きな値で示される。

図３のＳ１４において、制御部１０は、単語の重み算出処理による重み結果を、単語抽出結果に反映させて記憶部２０に記憶させる。その後、制御部１０は、本処理を終了する。
図４（Ｄ）は、表４２に単語ごとの重みを対応付けた表４３の例を示す。
重みは、上記のＴＦ－ＩＤＦの値であるので、同じ単語であっても異なる値を示す場合がある。例えば、表４３のレコード４３ａとレコード４３ｂとは、同じ単語であるが重みが異なる。

ここで、同じ単語であっても文書ごとに重みが異なる点について、図５を用いて説明する。
図５の表５１は、文書集合ＤのＩＤＦを算出した際の各単語ｔのＩＤＦ値を示す。ここで、文書集合Ｄは、本実施形態におけるＦＡＱ記憶部２２に記憶された複数の質問文に対応する。
文書集合Ｄにおける各単語ｔのＩＤＦは、以下の式によって算出される。

次に、文書ｄにおける単語ｔのＴＦ及び文書集合Ｄがあるときの文書ｄにおける単語ｔのＴＦ－ＩＤＦは、以下の式によって算出される。

なお、ＴＦの計算式として、文書ｄに含まれる単語数で割ることにより正規化を行っているが、正規化を行わず、文書ｄにおける単語ｔの出現回数をそのまま用いてもよい。そこで、表５２は、文書ｄにおける単語ｔのＴＦ－ＩＤＦ値を示すが、表５２におけるＴＦの値は、文書ｄにおける単語ｔの出現回数をそのまま用いた値によって表現している。
また、上記のＩＤＦについての計算式についても一例であって、例えば、正規化の採用可否で変わる場合がある。

ここで、表５２のレコード５２ａが示す単語「市場」は、出現回数（ＴＦ）が多いが、文書集合Ｄの中では、表５１のレコード５１ａが示すように、低いＩＤＦ値になっている。これは、単語「市場」は、文書集合Ｄの全体においては、出現としては当たり前の語であることを示す。そのため、表５２のレコード５２ａに示す文書ｄにおける単語「市場」のＴＦ－ＩＤＦとしての数値は、低くなる。
他方、表５２のレコード５２ｂが示す単語「クラウド」は、文書集合Ｄの中で特定の文書にしか出現しない語であり、表５１のレコード５１ｂが示すように高いＩＤＦ値になっている。そのため、表５２のレコード５２ｂに示す文書ｄにおける単語「クラウド」のＴＦ－ＩＤＦとしての数値は、高くなり、単語「クラウド」が特徴的な語として扱われることを示す。

次に、類似文書検索処理について説明する。
図６は、本実施形態に係る類似文書検索装置１の類似文書検索処理を示すフローチャートである。
図７は、本実施形態に係る類似文書検索処理を説明するための図である。
図８は、本実施形態に係る文書の類似度の算出に係る説明のための図である。
図９は、本実施形態に係る端末３での画面例を示す図である。

例えば、端末３が類似文書検索装置１に接続し、端末３の利用者により新規質問文の入力がされて、検索の実行のための操作が行われることで、図６に示す類似文書検索処理が開始される。
図６のＳ２１において、制御部１０（新規文書受付部１２）は、新規質問文の入力を受け付ける。

Ｓ２２において、制御部１０（新規重み算出部１３）は、新規質問文に含まれる単語を抽出する。そして、制御部１０（新規重み算出部１３）は、抽出した単語の類義語を含めて単語抽出結果を生成する。
Ｓ２３において、制御部１０（新規重み算出部１３）は、単語の重み算出処理を行う。
制御部１０は、上記Ｓ２２及びＳ２３の処理を、図３のＳ１１からＳ１３までの処理と同様に行えばよい。
Ｓ２４において、制御部１０（類似度算出部１４）は、新規質問文の重みと各既存質問文の重みとを用いて、新規質問文と各既存質問文との類似度を算出する。

図７（Ａ）は、新規質問文６１の例を示し、図７（Ｂ）は、新規質問文６１に対して単語を抽出し、重み算出処理を行った結果である表６２を示す。
図７（Ｃ）は、既存文書の重み算出処理（図３）で算出した表４３である。
図７（Ｄ）は、新規質問文の重みである表６２と、既存質問文の重みである表４３とを用いて新規質問文に対する各既存質問文の類似度を示す表６３を示す。

ここで、類似度の算出について、図８を用いて説明する。
図８（Ａ）は、既存文書の例として、文書Ａと、文書Ａのベクトル及びイメージ７１を示す。ここで、文書Ａのベクトルは、ＴＦ－ＩＤＦの計算結果である各単語の重みを用いて作成され、単語の数だけの次元を有する。
図８（Ｂ）は、既存文書の例として、文書Ｂと、文書Ｂのベクトル及びイメージ７２を示す。文書Ｂのベクトルも同様に、ＴＦ－ＩＤＦの計算結果である各単語の重みを用いて作成される。

図８（Ｃ）は、新規文書の例としての文書ｘが、文書Ａと文書Ｂとのうちいずれに類似しているかを、文書ｘのベクトルが、文書Ａのベクトルと文書Ｂのベクトルとのうちいずれに近いかにより示すイメージ７３の例を示す。
ここで、制御部１０は、２つの文書の類似度を、コサイン類似度を用いて算出する。
文書ｘと類似度計算対象文書ｙとのコサイン類似度は、以下の式によって算出される。

図８（Ｃ）の例では、イメージ７３を参照すると、文書ｘのベクトルと文書Ａのベクトルとのなす角が、文書ｘのベクトルと文書Ｂのベクトルとのなす角よりも小さい。ここで、ベクトルのなす角が小さい対象文書が、類似度が高い文書になる。そのため、文書ｘは、文書Ｂよりも文書Ａに類似していることを示す。

図６のＳ２５において、制御部１０（類似文書取得部１５）は、類似度が第１規定値以上の質問文があるか否かを判断する。ここで、第１規定値は、任意に設定可能であるが、経験則としては、例えば、０．６程度以上である。類似度が第１規定値以上の質問文がある場合（Ｓ２５：ＹＥＳ）には、制御部１０は、処理をＳ２６に移す。他方、類似度が第１規定値以上の質問文がない場合（Ｓ２５：ＮＯ）には、制御部１０は、処理をＳ２９に移す。
図７（Ｄ）に示す表６３によれば、質問ＩＤが１の既存質問文の類似度が０．８であり、質問ＩＤが２の既存質問文の類似度が０．７であるので、いずれも類似度が第１規定値以上であり、新規質問文に類似するものであることを示す。他方、質問ＩＤが１０の既存質問文の類似度が０．５であるため、新規質問文に類似していないものであることを示す。

図６のＳ２６において、制御部１０（類似文書取得部１５）は、類似度が第１規定値以上である上位Ｎ件まで（Ｎは、任意の自然数であり、例えば、５）の質問文を含むレコードを、ＦＡＱ記憶部２２から抽出する。
Ｓ２７において、制御部１０（結果出力部１６）は、抽出したレコードに基づくＦＡＱを、端末３に出力する。その後、制御部１０は、本処理を終了する。

他方、Ｓ２９において、制御部１０は、新規質問文に類似するＦＡＱがない旨を、端末３に出力し、本処理を終了する。なお、制御部１０は、類似度が第１規定値より小さい第２規定値以下の質問文のみであった場合には、例えば、新規質問文をＦＡＱ記憶部２２に登録するように促すメッセージを出力してもよい。第２規定値は、任意に設定可能であるが、経験則としては、例えば、０．４程度である。

図９は、類似文書検索処理での端末３での画面例を示す。
図９（Ａ）に、質問文の入力時における画面９０の例を示す。
画面９０は、入力欄９０ａと、実行ボタン９０ｂとを含む。端末３の利用者は、入力欄９０ａに質問文を入力した後に、ポインタＰによって実行ボタン９０ｂを選択操作する。
そうすることで、制御部１０は、図９（Ａ）に示す画面９０から画面を変更し、図９（Ｂ）に示す画面９０を出力する。

図９（Ｂ）は、図９（Ａ）に対して検索結果領域９０ｃが追加された画面９０である。
検索結果領域９０ｃは、質問ＩＤと、質問文と、回答文と、類似度との対応付けを出力する。検索結果領域９０ｃには、類似度が第１規定値以上の上位Ｎ件のＦＡＱ及びその類似度を出力している。
利用者は、画面９０の検索結果領域９０ｃを参照して、質問文をＦＡＱに追加するか否かを判断することができる。

このように、本実施形態の類似文書検索装置１によれば、以下のような効果がある。
（１）ＦＡＱ記憶部２２に記憶された複数の既存質問文の各々に有する各単語の出現傾向を示す重みを算出して記憶しておき、新規質問文を端末３から受け付けると、受け付けた新規質問文に有する各単語の重みを算出し、複数の既存質問文の各々に有する各単語の重みと、新規質問文に有する各単語の重みとを用いて、複数の既存質問文のうち新規質問文に類似する既存質問文を取得して、取得結果を端末３に出力する。
よって、質問文に有する各単語の出現傾向を示す重みを用いた新たな手法を用いて、新規質問文に類似する既存質問文を取得して出力することができる。そして、表記上の文字列や単語が異なっていても、新規質問文に類似する既存質問文を提示することができる。

（２）類義語を記憶した類義語記憶部２３から各単語の類義語を取得し、取得した類義語を含めて各単語の重みを算出する。
よって、質問文に含まれる単語に類義語を考慮して、各単語の重みを算出できる。その結果、同じ意味で言葉が異なる語が用いられていても、適切に類似するものを取得できるようになる。
（３）文書に対して形態素解析をして得られた形態素の重みを算出する。
よって、文書を構成する形態素を用いた重みを用いて、新規質問文に類似する既存質問文を取得することができる。

（４）ＦＡＱ記憶部２２に記憶された複数の既存質問文の各々に有する各単語の出現頻度（希少度等）を用いて、新規質問文に有する各単語の重みを算出する。
より具体的には、ＴＦ－ＩＤＦを用いて複数の既存質問文の各々に有する各単語の重みや新規質問文に有する各単語の重みを算出する。
よって、出現頻度を考慮した単語の重みを用いて、新規質問文に類似する既存質問文を取得することができる。

（５）新規質問文に有する各単語の重みと、複数の既存質問文の各々に有する各単語の重みとを用いて、新規質問文と、各既存質問文との類似度を算出する。そして、算出した類似度が第１規定値以上の既存質問文を、ＦＡＱ記憶部２２から取得する。
よって、質問文に含まれる単語の重みを用いて、文書間の類似度を算出することができる。また、文書間の類似度に基づいて新規質問文に類似する既存質問文を取得できる。

（６）算出した類似度が第１規定値以上かつ指定数以内の既存質問文を、ＦＡＱ記憶部２２から取得する。
また、新規質問文と各既存質問文との類似度がいずれも第１規定値よりも低い第２規定値以下である場合に、新規質問文のＦＡＱ記憶部２２への登録を促すメッセージを、端末３に対して出力する。
よって、類似度についての規定値を用いて、類似する既存質問文を取得したり、新規質問文の登録を促したりすることができる。

（７）新規質問文に類似する既存質問文と、既存質問文に対応する回答文とを対応付けて、端末３に出力する。
よって、質問文だけではなく回答文も含めて、利用者が新規質問文に類似するか否かを判断できる。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限定されるものではない。また、実施形態に記載した効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載したものに限定されない。なお、上述した実施形態及び後述する変形形態は、適宜組み合わせて用いることもできるが、詳細な説明は省略する。

（変形形態）
（１）本実施形態では、質問文を例に説明をしたが、これに限定されない。他の文書であってもよい。
（２）本実施形態では、各単語の重みを、ＴＦ－ＩＤＦを用いて算出したものを用いるものを例に説明したが、これに限定されない。例えば、ディープラーニング等を用いて各単語の重み付けをするものであってもよい。

（３）本実施形態では、新規質問文と各既存質問文との類似度がいずれも第２規定値以下である場合に、登録を促すメッセージを出力するものを例に説明したが、これに限定されない。例えば、類似文書検索装置の制御部（文書登録手段）は、新規質問文と各既存質問文との類似度がいずれも第２規定値以下である場合に、新規質問文をＦＡＱ記憶部に自動的に登録するようにしてもよい。

（４）本実施形態では、新規質問文の検索結果として、類似する既存質問文と回答文と類似度とを出力するものを例に説明したが、これに限定されない。少なくとも、類似する既存質問文を出力すればよい。

（５）本実施形態では、類似文書検索装置がＦＡＱ記憶部と類義語記憶部とを備える構成のものを説明したが、これに限定されない、類似文書検索装置とは異なる装置にＦＡＱ記憶部と類義語記憶部とを備え、類似文書検索装置に対してＦＡＱ記憶部及び類義語記憶部を備える装置が通信可能に接続された構成であってもよい。
（６）本実施形態では、類似文書検索装置と端末とからなるものを説明したが、これに限定されない、類似文書検索装置が入力部及び出力部を備えたスタンドアロンの構成であってもよい。

１類似文書検索装置
３端末
１０制御部
１１既存重み算出部
１２新規文書受付部
１３新規重み算出部
１４類似度算出部
１５類似文書取得部
１６結果出力部
２０記憶部
２１プログラム記憶部
２１ａ類似文書検索プログラム
２２ＦＡＱ記憶部
２３類義語記憶部
９０画面
１００類似文書検索システム

Claims

複数の既存文書を記憶した文書記憶部と、
新規文書を受け付ける文書受付手段と、
文書に有する各単語の出現傾向を示す重みを算出する重み算出手段と、
前記重み算出手段を用いて、前記文書受付手段が受け付けた前記新規文書に有する各単語の前記重みを算出する新規重み算出手段と、
記憶部に有し、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の出現傾向を示す重みと、前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みとを用いて、複数の前記既存文書のうち前記新規文書に類似する前記既存文書を取得する類似文書取得手段と、
前記類似文書取得手段による取得結果を出力する結果出力手段と、
を備える、類似文書検索装置。
請求項１に記載の類似文書検索装置において、
類義語を記憶した類義語記憶部を備え、
前記重み算出手段は、前記類義語記憶部から各単語の前記類義語を取得し、取得した前記類義語を含む各単語の前記重みを算出する、類似文書検索装置。
請求項１に記載の類似文書検索装置において、
前記重み算出手段は、前記文書に対して形態素解析をして得られた形態素の前記重みを算出する、類似文書検索装置。
請求項１に記載の類似文書検索装置において、
前記重み算出手段は、前記文書に有する各単語の出現頻度を用いて各単語の前記重みを算出する、類似文書検索装置。
請求項１に記載の類似文書検索装置において、
前記重み算出手段を用いて、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の前記重みを算出する既存重み算出手段と、
前記既存重み算出手段が算出した複数の前記既存文書の各々に有する各単語の前記重みを前記記憶部に記憶する記憶手段と、
を備える、類似文書検索装置。
請求項１から請求項５までのいずれかに記載の類似文書検索装置において、
前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みと、前記記憶部に有する前記複数の既存文書の各々に有する各単語の前記重みとを用いて、前記新規文書と各既存文書との類似度を算出する類似度算出手段を備え、
前記類似文書取得手段は、前記類似度算出手段が算出した前記類似度が第１規定値以上の前記既存文書を取得する、類似文書検索装置。
請求項６記載の類似文書検索装置において、
前記類似文書取得手段は、前記類似度算出手段が算出した前記類似度が前記第１規定値以上かつ指定数以内の前記既存文書を取得する、類似文書検索装置。
請求項６記載の類似文書検索装置において、
前記類似度算出手段が算出した前記新規文書と各既存文書との前記類似度が、いずれも前記第１規定値よりも低い第２規定値以下である場合に、前記新規文書の前記文書記憶部への登録を促すメッセージを出力するメッセージ出力手段を備える、類似文書検索装置。
請求項６記載の類似文書検索装置において、
前記類似度算出手段が算出した前記新規文書と各既存文書との前記類似度が、いずれも前記第１規定値よりも低い第２規定値以下である場合に、前記新規文書を前記文書記憶部に登録する文書登録手段を備える、類似文書検索装置。
請求項１から請求項５までのいずれか記載の類似文書検索装置において、
前記既存文書は、回答文に対応した質問文であり、
前記結果出力手段は、前記既存文書と、前記既存文書に対応する回答文とを対応付けて出力する、類似文書検索装置。
複数の既存文書を記憶した文書記憶部を備えるコンピュータが実行するプログラムであって、
前記コンピュータは、
前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の出現傾向を示す重みを記憶する記憶部を備え、
前記コンピュータを、
新規文書を受け付ける文書受付手段と、
文書に有する各単語の出現傾向を示す重みを算出する重み算出手段と、
前記重み算出手段を用いて、前記文書受付手段が受け付けた前記新規文書に有する各単語の前記重みを算出する新規重み算出手段と、
前記記憶部に有し、前記文書記憶部に記憶された複数の前記既存文書の各々に有する各単語の出現傾向を示す重みと、前記新規重み算出手段が算出した前記新規文書に有する各単語の前記重みとを用いて、複数の前記既存文書のうち前記新規文書に類似する前記既存文書を取得する類似文書取得手段と、
前記類似文書取得手段による取得結果を出力する結果出力手段と、
して機能させるためのプログラム。