JP7445891B2

JP7445891B2 - 文書分類方法、文書分類装置及びプログラム

Info

Publication number: JP7445891B2
Application number: JP2020102007A
Authority: JP
Inventors: 彰洋坂口; 剛尾籠
Original assignee: Panasonic Intellectual Property Management Co Ltd
Current assignee: Panasonic Intellectual Property Management Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2024-03-08
Anticipated expiration: 2040-06-12
Also published as: US11797592B2; CN113807381A; JP2021196786A; US20210390297A1

Description

本開示は、文書分類方法、文書分類装置及びプログラムに関する。

例えば特許文献１には、電子化された大量の文書を、内容に応じてカテゴリに分類するための文書分類装置等が開示されている。特許文献１に開示されている技術では、カテゴリ分類対象の文書中の文章に含まれる単語の出現頻度及び共起関係を分析して係り受け解析を行うことを繰り返しながら得た信頼性スコアに基づいて、当該文章の特徴となるフレーズを絞り込んで抽出する。そして、当該文章の特徴となるフレーズを用いて当該文章のカテゴリを生成することで、当該文章のカテゴリを分類する。

特開２０１４－４１４８１号公報

しかしながら、特許文献１に開示されている技術では文章の特徴となるフレーズを精度よく抽出できないと、精度よくカテゴリを分類できないという問題がある。

より具体的には、文章の特徴となるフレーズを精度よく抽出するためには、出現頻度及び共起関係を分析して係り受け解析を行うといった高度な自然言語処理を繰り返し行い、閾値以上の信頼性スコアを得る必要がある。しかし、このような高度な自然言語処理をコンピュータが行うのには負荷が高く（換言すると計算量が多く）、処理能力を必要とするため、精度のよいフレーズを抽出するのが難しい場合がある。

このため、コンピュータの計算量を削減して、精度よく文章の特徴となるフレーズを抽出できない場合でも、精度よくカテゴリを分類することが期待される。

本開示は、上述の事情を鑑みてなされたもので、文書のカテゴリを精度よく分類できる文書分類方法等を提供することを目的とする。

上記課題を解決するために、本開示の一形態に係る文書分類方法は、文書を少なくとも1つのカテゴリに分類することをコンピュータが行う文書分類方法であって、分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を抽出し、意味で予め分類された１以上の項目ごとに当該項目の要点を示す第２文章情報が予め含まれた事例であって予め分類された１以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記１以上の第１特徴語に基づいて、前記第１文書に類似する所定数の第１事例を抽出し、前記所定数の第１事例それぞれの第２文章情報から、前記所定数の第１事例それぞれの１以上の第２特徴語を抽出し、抽出した前記１以上の第２特徴語に基づいて、前記所定数の第１事例それぞれと、前記第１文書との一致度を算出し、算出した一致度のうち、最も大きい一致度の第１事例に付与された１以上のカテゴリを、前記第１文書のカテゴリに決定することにより、前記第１文書を少なくとも１つのカテゴリに分類する。

なお、これらの全般的または具体的な態様は、装置、方法、システム、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ－ＲＯＭなどの記録媒体で実現されてもよく、装置、方法、システム、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本開示の文書分類方法等によれば、文書のカテゴリを精度よく分類できる。

図１は、実施の形態１に係る文書分類装置の一例を示すブロック図である。図２は、実施の形態１に係るデータベースに含まれる事例の一例を示す図である。図３は、実施の形態１に係る文書分類装置の機能構成例を示すブロック図である。図４は、実施の形態１に係る第１特徴語抽出部による第１特徴語の抽出方法の一例を示す図である。図５は、実施の形態１に係る第１事例抽出部が抽出した第１事例の一例を示す図である。図６は、図５で抽出された５つの第１事例それぞれの項目と第１文書との一致度の一例を示す図である。図７は、実施の形態１に係る文書分類装置の機能をソフトウェアにより実現するコンピュータのハードウェア構成の一例を示す図である。図８は、実施の形態１に係る文書分類装置の動作例を示すフローチャートである。図９は、実施の形態２に係る文書分類装置の機能構成例を示すブロック図である。図１０は、実施の形態２に係る文章範囲特定部により特定された第１文書の項目ごとの内容を示す文章範囲の一例を示す図である。図１１は、実施の形態２に係る要点作成部により作成された第１文書における項目ごとの内容の要点の一例を示す図である。図１２は、実施の形態２に係る文書分類装置が、文書に含まれる文章を項目ごとに整理した事例でデータベース１１に格納されるまでの処理概要を示す図である。

（本開示に至った経緯）
近年、例えば技術報告書または論文などの学術文献のように、電子化された大量の文書が蓄積されるようになっている。このため、このような文書を、ＡＩ（Artificial Intelligence）などを用いて、内容に応じたカテゴリに自動的に分類させることが期待されている。

電子化された大量の文書のカテゴリが分類されると、それらの文書を検索するのが容易となる。この結果、従来、ベテランの知見に頼っていた不具合の発生原因の把握と不具合の解決とを、ベテランの知見に頼らずに、検索した文書を用いて短時間で行うことができる可能性がある。さらに、学術文献のビッグデータ分析または機械学習を用いて学術文献の内容の分析ができるようになると、不具合の発生原因の把握及び解決をさらに短時間で解決することができる可能性があり、不具合に伴う莫大なリコール費用の発生を抑制できる可能性がある。したがって、電子化された文書のカテゴリを自動的に分類することの社会に与えるインパクトは大きいと言える。

これに対し、上述したように、特許文献１には、電子化された大量の文書を、内容に応じてカテゴリに分類するための文書分類装置等が開示されている。

しかしながら、特許文献１に開示されている技術では、文書に含まれる文章の特徴となるフレーズを絞り込んで抽出する際に煩雑で高度な自然言語処理が必要となる。このような高度な自然言語処理をコンピュータが行うのには負荷が高く、処理能力を必要とするため、精度のよいフレーズを抽出するのが難しい場合がある。

そこで、本開示の一形態に係る文書分類方法は、文書を少なくとも1つのカテゴリに分類することをコンピュータが行う文書分類方法であって、分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を抽出し、意味で予め分類された１以上の項目ごとに当該項目の要点を示す第２文章情報が予め含まれた事例であって予め分類された１以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記１以上の第１特徴語に基づいて、前記第１文書に類似する所定数の第１事例を抽出し、前記所定数の第１事例それぞれの第２文章情報から、前記所定数の第１事例それぞれの１以上の第２特徴語を抽出し、抽出した前記１以上の第２特徴語に基づいて、前記所定数の第１事例それぞれと、前記第１文書との一致度を算出し、算出した一致度のうち、最も大きい一致度の第１事例に付与された１以上のカテゴリを、前記第１文書のカテゴリに決定することにより、前記第１文書を少なくとも１つのカテゴリに分類する。

この構成により、文書のカテゴリを精度よく分類できる。

より詳細には、この構成により、分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を精度よく抽出できなくても、当該第１特徴語を用いて、既に精度よく分類された事例が蓄積されたデータベースから第１文書に類似する所定数の第１事例を抽出する。抽出した所定数の第１事例それぞれから抽出した１以上の第２特徴語を用いて、分類対象である第１文書との一致度を算出し、第１文書に最も近い第１事例のカテゴリを、第１文書のカテゴリに決定する。つまり、既に精度よく分類された事例が蓄積されたデータベースを利用して、第１文書と最も類似する第１事例のカテゴリを用いて第１文書のカテゴリを分類する。これにより、第１特徴語を精度よく抽出できなくても、第１文書のカテゴリを精度よく分類できる。

また、例えば、前記１以上の第１特徴語を抽出する際、前記第１文章情報を形態素分析することで、前記第１文章情報に含まれる複数の単語を抽出し、前記複数の単語の係り受け解析をすることで得た前記複数の単語の出現頻度及び共起関係からスコアを算出し、算出した前記スコアが閾値以上の１以上の単語を、前記１以上の第１特徴語と決定することで、前記第１文章情報から前記１以上の第１特徴語を抽出してもよい。

ここで、例えば、前記所定数の第１事例を抽出する際、前記データベースに含まれる複数の事例それぞれの前記第２文章情報と、抽出された前記１以上の第１特徴語とを比較して、前記第２文章情報に含まれる単語と、前記１以上の第１特徴語との類似度を算出し、前記類似度が最上位の第１事例を含み、前記最上位から前記類似度が大きい順に前記所定数の第１事例を抽出してもよい。

また、例えば、前記１以上の第２特徴語を抽出する際、前記所定数の第１事例それぞれの前記１以上の項目ごとに含まれる第２文章情報から、前記所定数の第１事例それぞれにおける前記１以上の項目ごとの第２特徴語を、前記１以上の第２特徴語として抽出してもよい。

また、例えば、前記一致度を算出する際、前記所定数の第１事例それぞれにおける前記１以上の項目ごとの第２特徴語と、前記第１文書に含まれる前記第１文章情報とを比較し、前記所定数の第１事例それぞれにおける前記１以上の項目ごとに、前記第１文章情報との一致度を示す一致度スコアを算出し、前記所定数の第１事例それぞれにおいて前記一致度スコアを総合して得た総合スコアを、前記所定数の第１事例それぞれと前記第１文書との一致度として算出してもよい。

また、例えば、前記文書分類方法は、さらに、前記最も大きい一致度の第１事例における前記１以上の項目ごとの第２特徴語を用いて、前記第１文書に含まれる第１文章情報を検索し、前記第１文章情報における前記１以上の項目ごとの第２特徴語の分布に基づき、前記最も大きい一致度の第１事例における前記１以上の項目に対応する前記第１文書における１以上の項目ごとの内容を示す文章範囲を特定し、特定された前記文章範囲に含まれる前記第１文章情報から、前記第１文書における１以上の項目ごとに当該項目の内容の要点を作成するとしてもよい。

また、例えば、前記文書分類方法は、さらに、前記第１文書を、作成した前記要点と、分類した前記少なくとも１つのカテゴリとを含む新たな第１事例として、前記データベースに格納してもよい。

また、例えば、前記文章範囲を特定する際、前記第１文章情報を検索することで得た、前記第１文章情報における前記１以上の項目ごとの第２特徴語の分布であって前記１以上の項目ごとの第２特徴語の近接度、密度及び重みのうち少なくとも１つが所定値以上となる分布に含まれる前記第１文章情報の範囲を、前記項目ごとの内容を示す文章範囲として特定してもよい。

また、本開示の一形態に係る文書分類装置は、文書を少なくとも1つのカテゴリに分類する文書分類装置であって、プロセッサと、メモリと、を備え、前記プロセッサは、前記メモリに記録されたプログラムを用いて、分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を抽出し、意味で予め分類された１以上の項目ごとに当該項目の要点を示す第２文章情報が予め含まれた事例であって予め分類された１以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記１以上の第１特徴語に基づいて、前記第１文書に類似する所定数の第１事例を抽出し、前記所定数の第１事例それぞれの第２文章情報から、前記所定数の第１事例それぞれの１以上の第２特徴語を抽出し、抽出した前記１以上の第２特徴語に基づいて、前記所定数の第１事例それぞれと、前記第１文書との一致度を算出し、算出した一致度のうち、最も大きい一致度の第１事例に付与された１以上のカテゴリを、前記第１文書のカテゴリに決定することにより、前記第１文書を少なくとも１つのカテゴリに分類する。

また、本開示の一形態に係るプログラムは、文書を少なくとも1つのカテゴリに分類する文書分類方法をコンピュータに実行させるためのプログラムであって、分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を抽出し、意味で予め分類された１以上の項目ごとに当該項目の要点を示す第２文章情報が予め含まれた事例であって予め分類された１以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記１以上の第１特徴語に基づいて、前記第１文書に類似する所定数の第１事例を抽出し、前記所定数の第１事例それぞれの第２文章情報から、前記所定数の第１事例それぞれの１以上の第２特徴語を抽出し、抽出した前記１以上の第２特徴語に基づいて、前記所定数の第１事例それぞれと、前記第１文書との一致度を算出し、算出した一致度のうち、最も大きい一致度の第１事例に付与された１以上のカテゴリを、前記第１文書のカテゴリに決定することにより、前記第１文書を少なくとも１つのカテゴリに分類することを、コンピュータに実行させる。

以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態１）
以下では、図面を参照しながら、実施の形態１における文書分類装置等の説明を行う。

［構成］
図１は、実施の形態１に係る文書分類装置１０の一例を示すブロック図である。

実施の形態１に係る文書分類装置１０は、図１に示すように、既に精度よく分類された事例が蓄積されたデータベース１１を利用して、分類対象の文書を少なくとも1つのカテゴリに分類するためのものである。実施の形態１に係る文書分類装置１０は、分類対象の文書に対する分類結果として、分類したカテゴリを出力する。

ここで、実施の形態１に係るデータベース１１について説明する。

［データベース１１］
データベース１１は、意味で予め分類された１以上の項目ごとに当該項目の要点を示す第２文章情報が予め含まれた事例であって予め分類された１以上のカテゴリが付与された事例を複数含む。

より具体的には、データベース１１には、技術報告書または論文などの学術文献を含む文書を、専門家がその文書に含まれる文章の意味を理解した上でカテゴリを分類して、当該文書を整理した文章を含めた事例が複数格納されている。データベース１１には、このように専門家により整理された事例が過去から積み上げられて大量に蓄積（格納）されている。換言すると、データベース１１に記憶される事例は、専門家が文書に含まれる文章の意味を理解した上で、カテゴリ分類されている。また、データベース１１に記憶される事例には、カテゴリごとの専門家がその文書に含まれる文章の意味を理解した上で、意味で分類（またはタグ付け）された項目ごとに、当該文章の内容を整理して要点を示す文章（第２文書情報が示す文章に該当）が含まれている。

ここで、項目は、事例に整理される文書が不良解析に関する技術報告書である場合には、例えば「現象」、「メカニズム」、「原因」、「処置または対策」との名称が付される。項目の名称は、これらの例に限定されず、事例に整理される文書に含まれる文章の意味で分類され、かつ専門家が当該文章の内容を概括していることが理解可能な名称であればよい。

図２は、実施の形態１に係るデータベース１１に含まれる複数の事例の一例を示す図である。

本実施の形態では、データベース１１には、図２に示される例のように、カテゴリごとに複数の事例が格納されている。図２において、項目分類事例とは、元の文書の文章が項目ごとに分類され、項目ごとに要点を示す文章が含まれた事例を意味している。図２では、「対象」、「故障モード」、「影響」、「原因」及び「対策」で示される項目１～項目５に、元の文書の文章が分類され作成された要点を示す第２文書情報（不図示）が含まれている場合の例が示されている。より具体的には、図２では、カテゴリＡに項目分類事例ａ～項目分類事例ｘが含まれ、カテゴリＢに項目分類事例ａ～項目分類事例ｘが含まれ、…、カテゴリＫに項目分類事例ａのみが含まれている例が示されている。なお、図２では、事例の元となった文書が参照できるようにＵＲＬも付されている。

続いて、図１に示す文書分類装置１０の機能構成について説明する。

［文書分類装置１０］
図３は、実施の形態１に係る文書分類装置１０の機能構成例を示すブロック図である。

文書分類装置１０は、ＣＰＵなどのプロセッサ（マイクロプロセッサ）、メモリ等を備えるコンピュータで実現される。本実施の形態では、文書分類装置１０は、例えば図３に示すように、入力部１０１と、メモリ１０２と、第１特徴語抽出部１０３と、第１事例抽出部１０４と、第２特徴語抽出部１０５と、一致度算出部１０６と、カテゴリ決定部１０７と、出力部１０８とを備える。なお、文書分類装置１０が入力部１０１及び出力部１０８を備えることは必須ではない。

＜入力部１０１＞
入力部１０１には、カテゴリを分類したい文書つまり分類対象の文書が入力される。本実施の形態では、入力部１０１には、分類対象である第１文書が入力される。ここで、入力部１０１に入力される第１文書は、上述した技術報告書または論文などの学術文献に限らず、小説などでもよい。つまり、入力部１０１に入力される第１文書は、そこに含まれる文章からカテゴリ分類が可能で、かつ、当該文章を、意味で分類した複数の項目に分けることができればよい。

＜メモリ１０２＞
メモリ１０２は、記憶媒体の一例であり、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成される。本実施の形態では、メモリ１０２は、入力部１０１に入力された第１文書を記憶する。

また、メモリ１０２は、データベース１１から抽出した複数の第１事例を記憶する。

＜第１特徴語抽出部１０３＞
第１特徴語抽出部１０３は、処理負荷の少ない自然言語処理を行うことで、分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を抽出する。ここで、第１特徴語は、第１文書に含まれる第１文章情報に示される第１文章を構成し、かつ、当該第１文書の特徴となるフレーズまたは単語である。

より具体的には、まず、第１特徴語抽出部１０３は、入力部１０１に入力された第１文書に含まれる第１文章情報を形態素分析することで、第１文章情報に含まれる複数の単語を抽出する。次いで、第１特徴語抽出部１０３は、複数の単語の係り受け解析をすることで得た複数の単語の出現頻度及び共起関係からスコアを算出する。そして、第１特徴語抽出部１０３は、算出したスコアが閾値以上の１以上の単語を、１以上の第１特徴語と決定することで、第１文章情報から１以上の第１特徴語を抽出する。

このようにして、第１特徴語抽出部１０３は、入力部１０１に入力された第１文書に含まれる第１文章情報を構成する複数の単語の出現頻度及び共起関係から、係り受け解析を行うことで算出されるスコアが大きい複数個の第１特徴語を抽出する。なお、第１特徴語抽出部１０３は、自然言語処理を繰り返す処理を行わずに、第１特徴語を抽出している。つまり、第１特徴語抽出部１０３は、処理負荷の少ない自然言語処理を行って算出されるスコアから第１特徴語を抽出している。

図４は、実施の形態１に係る第１特徴語抽出部１０３による第１特徴語の抽出方法の一例を示す図である。

本実施の形態では、第１特徴語抽出部１０３は、図４に示される例のように、第１文書に含まれる第１文章情報から複数の単語を抽出し、抽出した複数の単語それぞれの頻度とスコアを算出している。そして、第１特徴語抽出部１０３は、図４に示す最左側の欄に示される単語のうちスコアが閾値以上の単語を、上述した１以上の第１特徴語として抽出する。図４に示される例では、第１特徴語抽出部１０３は、「ＬＳＩ」、「信頼性」、「封止材」、「パッケージ」及び「湿る」を１以上の第１特徴語を抽出している。これにより、第１特徴語抽出部１０３は、自然言語処理を繰り返す処理を行わずに、算出したスコアを用いて、第１特徴語を抽出しているのがわかる。

＜第１事例抽出部１０４＞
第１事例抽出部１０４は、データベース１１から、第１特徴語抽出部１０３により抽出された１以上の第１特徴語に基づいて、第１文書に類似する所定数の第１事例を抽出する。

より具体的には、まず、第１事例抽出部１０４は、データベース１１に含まれる複数の事例それぞれの第２文章情報と、第１特徴語抽出部１０３により抽出された１以上の第１特徴語とを比較して、第２文章情報に含まれる単語と、１以上の第１特徴語との類似度を算出する。そして、第１事例抽出部１０４は、算出した類似度が最上位の第１事例を含み、最上位から当該類似度が大きい順に所定数の第１事例を抽出する。なお、第２文章情報に含まれる単語と、１以上の第１特徴語との類似度は、スコアとして算出されてもよい。

このように、第１事例抽出部１０４は、第１文書に含まれる１以上の第１特徴語を用いて、データベース１１から、第１文書に類似する所定個の第１事例を抽出する。

図５は、実施の形態１に係る第１事例抽出部１０４が抽出した第１事例の一例を示す図である。なお、図２と同様の要素には同一の名称等が付されており、詳細な説明は省略する。

図５では、データベース１１から、カテゴリＡとカテゴリＤとカテゴリＥとに分類される５つの第１事例が抽出された例が示されている。より具体的には、カテゴリＡではNO.502とNO.503との第１事例が、カテゴリＤではNO.10521とNO.10525との第１事例が、カテゴリＥでは、NO.15231の第１事例が、データベース１１から抽出された例が示されている。

＜第２特徴語抽出部１０５＞
第２特徴語抽出部１０５は、第１事例抽出部１０４により抽出された所定数の第１事例それぞれの第２文章情報から、所定数の第１事例それぞれの１以上の第２特徴語を抽出する。

より具体的には、第２特徴語抽出部１０５は、所定数の第１事例それぞれの１以上の項目ごとに含まれる第２文章情報から、所定数の第１事例それぞれにおける１以上の項目ごとの第２特徴語を、１以上の第２特徴語として抽出する。

このように、第２特徴語抽出部１０５は、第１事例抽出部１０４により抽出された所定数の第１事例それぞれに含まれる項目ごとにその特徴語である第２特徴語を抽出する。

＜一致度算出部１０６＞
一致度算出部１０６は、第２特徴語抽出部１０５が抽出した１以上の第２特徴語に基づいて、所定数の第１事例それぞれと、第１文書との一致度を算出する。

より具体的には、まず、一致度算出部１０６は、所定数の第１事例それぞれにおける１以上の項目ごとの第２特徴語と、第１文書に含まれる第１文章情報とを比較する。次いで、一致度算出部１０６は、所定数の第１事例それぞれにおける１以上の項目ごとに、第１文章情報との一致度を示す一致度スコアを算出する。そして、一致度算出部１０６は、所定数の第１事例それぞれにおいて一致度スコアを総合して得た総合スコアを、所定数の第１事例それぞれと第１文書との一致度として算出する。

このように、一致度算出部１０６は、所定数の第１事例それぞれにおいて項目ごとに抽出された第２特徴語を用いて、第１文書と比較して、所定数の第１事例それぞれと第１文書との一致度を算出する。

図６は、図５で抽出された５つの第１事例それぞれの項目と第１文書との一致度の一例を示す図である。なお、図５と同様の要素には同一の名称等が付されており、詳細な説明は省略する。

図６には、カテゴリＡにおけるNO.502及びNO.503、カテゴリＤにおけるNO.10521及びNO.10525、カテゴリＥのけるNO.15231の第１事例それぞれの項目ごとに第２特徴語を抽出して、第１文書との一致度を算出した結果の一例が示されている。また、図６では、第１文書との一致度が最も高い項目を◎で表現しており、それより一致度が低下する順に、◎→〇→▲→×とした。なお、◎は一致度を示すスコアが７０以上である場合を示し、〇は一致度を示すスコアが７０より小さく６０以上である場合を示し、▲は一致度を示すスコアが５０より小さく３０以上である場合を示している。×は、図６では表現されていないが一致度を示すスコアが３０より小さい場合を示している。

図６から、図５で抽出された５つの第１事例のうち、第１文書との一致度が最も高い第１事例は、NO.503の第１事例であることがわかる。

＜カテゴリ決定部１０７＞
カテゴリ決定部１０７は、一致度算出部１０６が算出した一致度のうち、最も大きい一致度の第１事例に付与された１以上のカテゴリを、第１文書のカテゴリに決定することにより、第１文書を少なくとも１つのカテゴリに分類する。

なお、図６に示される例では、第１文書との一致度が最も高い第１事例は、NO.503であることから、カテゴリ決定部１０７は、第１文書のカテゴリは、カテゴリＡであると分類する。

このように、カテゴリ決定部１０７は、一致度の最も大きい項目を多く有する第１事例を選出し、選出した第１事例のカテゴリを、第１文書のカテゴリと決定する。

＜出力部１０８＞
出力部１０８は、カテゴリ決定部１０７により決定された第１文書のカテゴリを、分類結果すなわち分類した第１文書のカテゴリとして出力する。

［文書分類装置１０のハードウェア構成］
次に、本実施の形態に係る文書分類装置１０のハードウェア構成について、図７を用いて説明する。図７は、本実施の形態に係る文書分類装置１０の機能をソフトウェアにより実現するコンピュータ１０００のハードウェア構成の一例を示す図である。

コンピュータ１０００は、図７に示すように、入力装置１００１、出力装置１００２、ＣＰＵ１００３、内蔵ストレージ１００４、ＲＡＭ１００５、読取装置１００７、送受信装置１００８及びバス１００９を備えるコンピュータである。入力装置１００１、出力装置１００２、ＣＰＵ１００３、内蔵ストレージ１００４、ＲＡＭ１００５、読取装置１００７及び送受信装置１００８は、バス１００９により接続される。

入力装置１００１は入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。なお、入力装置１００１は、ユーザの接触操作を受け付ける他、音声での操作、リモコン等での遠隔操作を受け付ける構成であってもよい。

内蔵ストレージ１００４は、フラッシュメモリなどである。また、内蔵ストレージ１００４は、文書分類装置１０の機能を実現するためのプログラム、及び、文書分類装置１０の機能構成を利用したアプリケーションの少なくとも一方が、予め記憶されていてもよい。

ＲＡＭ１００５は、ランダムアクセスメモリ（Random Access Memory）であり、プログラム又はアプリケーションの実行に際してデータ等の記憶に利用される。

読取装置１００７は、ＵＳＢ（Universal Serial Bus）メモリなどの記録媒体から情報を読み取る。読取装置１００７は、上記のようなプログラムやアプリケーションが記録された記録媒体からそのプログラムやアプリケーションを読み取り、内蔵ストレージ１００４に記憶させる。

送受信装置１００８は、無線又は有線で通信を行うための通信回路である。送受信装置１００８は、例えばネットワークに接続されたサーバ装置と通信を行い、サーバ装置から上記のようなプログラムやアプリケーションをダウンロードして内蔵ストレージ１００４に記憶させる。

ＣＰＵ１００３は、中央演算処理装置（Central Processing Unit）であり、内蔵ストレージ１００４に記憶されたプログラム、アプリケーションをＲＡＭ１００５にコピーし、そのプログラムやアプリケーションに含まれる命令をＲＡＭ１００５から順次読み出して実行する。

［動作］
続いて、上述のように構成された文書分類装置１０の動作の一例について以下説明する。

図８は、実施の形態１に係る文書分類装置１０の動作例を示すフローチャートである。

文書分類装置１０は、プロセッサとメモリとを備え、プロセッサと、メモリに記録されたプログラムとを用いて、以下のステップＳ１０１～ステップＳ１０５の処理を行う。より具体的には、まず、文書分類装置１０は、分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を抽出する（Ｓ１０１）。次に、文書分類装置１０は、ステップＳ１０１で抽出された１以上の第１特徴語に基づいて、事例を複数含むデータベース１１から、第１文書に類似する所定数の第１事例を抽出する（Ｓ１０２）。次に、文書分類装置１０は、ステップＳ１０２で抽出した所定数の第１事例それぞれの第２文章情報から、所定数の第１事例それぞれの１以上の第２特徴語を抽出する（Ｓ１０３）。次に、文書分類装置１０は、ステップＳ１０３で抽出した１以上の第２特徴語に基づいて、所定数の第１事例それぞれと第１文書との一致度を算出する（Ｓ１０４）。次に、文書分類装置１０は、ステップＳ１０４で算出した一致度のうち、最も大きい一致度の第１事例に付与された１以上のカテゴリを、第１文書のカテゴリに決定する（Ｓ１０５）。

そして、文書分類装置１０は、ステップＳ１０４で決定された第１文書のカテゴリを、分類結果すなわち分類した第１文書のカテゴリとして出力する。

［効果等］
以上のようにして、文書分類装置１０は、分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を精度よく抽出しなくても、既に精度よく分類された事例が蓄積されたデータベース１１を利用することで、文書のカテゴリを精度よく分類できる。

より具体的には、文書分類装置１０は、分類対象である第１文書に含まれる第１文章情報から複数の第１特徴語を抽出し、１以上の第１特徴語を抽出した際に算出したスコアが高い１以上の第１特徴語を用いて、データベース１１から第１文書に類似する所定数の第１事例を抽出する。これにより、文書分類装置１０は、特許文献１に開示される技術と比較して、自然言語処理を繰り返す処理を行わずに、分類対象である第１文書に含まれる第１文章情報から、１以上の第１特徴語を抽出する。つまり、文書分類装置１０は、コンピュータの計算量を削減しつつ、１以上の第１特徴語を抽出することができる。

さらに、文書分類装置１０は、抽出した所定数の第１事例それぞれから抽出した１以上の第２特徴語を用いて、分類対象である第１文書との一致度を算出し、第１文書に最も近い第１事例のカテゴリを、第１文書のカテゴリに決定する。つまり、文書分類装置１０は、既に精度よく分類された事例が蓄積されたデータベース１１を利用して、第１文書と最も類似する第１事例のカテゴリを第１文書のカテゴリとすることで、第１文書のカテゴリを分類する。これにより、文書分類装置１０は、第１特徴語を精度よく抽出しなくても、第１文書のカテゴリを精度よく分類できる。

よって、文書分類装置１０は、自然言語処理の繰り返しなどの複雑な処理を必要としないので、コンピュータの計算量を削減しつつ、文書のカテゴリを精度よく分類できる。

なお、本実施の形態において、文書分類装置１０は、データベース１１を利用しても、第１文書と類似する第１事例がない場合には、当該第１文書に新しいカテゴリを分類してもよい。また、文書分類装置１０は、データベース１１を利用することで、第１文書と最も類似する第１事例が複数ある場合には、複数の第１事例それぞれのカテゴリすべてを、第１文書のカテゴリに分類してもよい。

以上のように、本実施の形態によれば、文書分類装置１０は、文書のカテゴリを精度よく分類できる。

（実施の形態２）
実施の形態１では、データベース１１を利用して、分類対象の文書を少なくとも1つのカテゴリに分類する文書分類装置１０について説明したが、これに限らない。文書分類装置は、データベース１１を利用して、分類対象の文書のカテゴリを分類するとともに、当該文書に含まれる文章をその内容に応じて項目ごと分類して、整理かつ要約した文である要点を作成してもよい。この場合の文書分類装置２０等について、実施の形態２として説明する。なお、以下では、実施の形態１と異なるところを中心に説明する。

［文書分類装置２０］
図９は、実施の形態２に係る文書分類装置２０の機能構成例を示すブロック図である。図９に示す文書分類装置２０は、実施の形態１に係る文書分類装置１０に対して、文章範囲特定部２０９と、要点作成部２１０と、格納処理部２１１との構成が追加されている点で異なる。

＜文章範囲特定部２０９＞
文章範囲特定部２０９は、一致度算出部１０６が算出した一致度のうち、最も大きい一致度の第１事例における１以上の項目ごとの第２特徴語を用いて、第１文書に含まれる第１文章情報を検索する。文章範囲特定部２０９は、検索することで得た、第１文章情報における１以上の項目ごとの第２特徴語の分布に基づき、当該最も大きい一致度の第１事例における１以上の項目に対応する、第１文書における１以上の項目ごとの内容を示す文章範囲を特定する。より具体的には、文章範囲特定部２０９は、第１文章情報を検索することで、第１文章情報における１以上の項目ごとの第２特徴語の分布であって１以上の項目ごとの第２特徴語の近接度、密度及び重みのうち少なくとも１つが所定値以上となる分布を得る。そして、文章範囲特定部２０９は、第１文章情報を検索することで得た当該分布に含まれる第１文章情報の範囲を、項目ごとの内容を示す文章範囲として特定する。

本実施の形態では、文章範囲特定部２０９は、当該最も大きい一致度の第１事例について第２特徴語抽出部１０５により抽出された第２特徴語を用いて、第１文書に含まれる第１文章情報を検索する。例えば、文章範囲特定部２０９は、まず、第１文章情報を検索し、第１文章情報が示す文章中の第２特徴語をマーキングしてもよい。次いで、文章範囲特定部２０９は、マーキングした当該第２特徴語の間の近接度及び密度（頻度）、さらには当該第２特徴語の重み付けなどから、当該第２特徴語の密集度を示す分布を作成し、第１文章情報をハイライト処理またはヒートマップ処理する。そして、文章範囲特定部２０９は、ハイライト処理またはヒートマップ処理された第１文章情報の領域のうち、適切な閾値以上の領域を、項目ごとの内容を示す文章範囲として特定する。

なお、文章範囲特定部２０９は、当該最も大きい一致度の第１事例から抽出された第２特徴語を用いて、第１文書に含まれる第１文章情報を検索する場合に限らない。文章範囲特定部２０９は、当該最も大きい一致度の第１事例から抽出された第２特徴語と、類似語辞典などから抽出したこの第２特徴語に関連する重要キーワードである関連語とを用いて、第１文章情報を検索してもよい。

図１０は、実施の形態２に係る文章範囲特定部２０９により特定された第１文書の項目ごとの内容を示す文章範囲の一例を示す図である。図１０には、例えば技術報告書などの第１文書に含まれる第１文章情報が示す文章において、例えば「現象」、「メカニズム」、「原因」、及び「対策」などの項目１～項目４の内容を示す文章範囲がハッチングされた枠により特定された場合の一例が示されている。

このようにして、文章範囲特定部２０９は、第１文書に類似する第１事例の項目ごとに抽出された第２特徴語を用いて、第１文書の項目ごとの内容を示す文章範囲を特定することができる。

＜要点作成部２１０＞
要点作成部２１０は、文章範囲特定部２０９により特定された文章範囲に含まれる第１文章情報から、第１文書における１以上の項目ごとに当該項目の内容の要点を作成する。

要点作成部２１０は、文章範囲特定部２０９により特定された文章範囲に対して自然言語処理を行うことにより、第１文書における項目ごとの内容の要点を作成する。なお、ここでの自然言語処理は、既存のソフトを導入することにより実現されるので詳細な説明は省略する。

図１１は、実施の形態２に係る要点作成部２１０により作成された第１文書における項目ごとの内容の要点の一例を示す図である。

図１１に示す例では、第１文書が不良解析に関する技術報告書である場合に、「現象」、「メカニズム」、「原因」、「対策」である複数の項目ごとに文章範囲特定部２０９により特定された文章範囲に含まれる第１文章情報から、内容の要点が作成されている。

図１１から、内容の要点が作成されることで、第１文書を精読しなくても、第１文書の項目ごとの要点を一目瞭然で確認できるので、第１文書に含まれる第１文章情報の意味を理解できるのがわかる。

＜格納処理部２１１＞
格納処理部２１１は、第１文書を、要点作成部２１０が作成した要点と、分類した少なくとも１つのカテゴリとを含む新たな第１事例として、データベース１１に格納する。

［効果等］
以上のようにして、文書分類装置２０は、既に精度よく分類された事例が蓄積されたデータベース１１を利用することで、第１文書のカテゴリを分類することができ、かつ、第１文書の文章を項目別に分類整理して項目別の要点を作成することができる。

つまり、まず、文書分類装置２０も、特許文献１に開示される技術と比較して、自然言語処理を繰り返す処理を行わずに、データベース１１を利用して、第１文書のカテゴリを精度よく分類することができる。なお、文書分類装置２０は、データベース１１を利用して第１文書のカテゴリを分類するため、長大な文章が含まれる第１文書でも、第１文書のカテゴリを精度よく分類することができる。よって、文書分類装置２０は、自然言語処理の繰り返しなどの複雑な処理を必要としないので、コンピュータの計算量を削減しつつ、第１文書のカテゴリを精度よく分類できる。

さらに、文書分類装置２０は、データベース１１を利用して、第１文書に含まれる第１文章の意味理解を手助けする項目ごとに分類したときの項目別の要点を作成することができる。これにより、第１文書に含まれる第１文章情報に示される文章を精読しなくても、当該文章に書かれている意味を容易に理解できる。

また、文書分類装置２０は、第１文書を、その項目ごとの内容の要点と、そのカテゴリとを含む事例としてデータベース１１に格納する。これにより、文書の検索者は、知りたいことが書かれている文書を検索できる従来のデータベースではなく、文書に含まれる文章にある散らばった意味を概念化して明示された文章を含む事例が格納されたデータベース１１を検索することができる。よって、検索者は、文書を多大な時間をかけて精読しなくても、文書が事例として格納されたデータベース１１を利用することで、知りたいことが書かれているかを短時間で知ることができる。つまり、データベース１１には、要点が項目別に整理された事例が蓄積されているので、事例の元になった文書に書かれている意味を容易に理解ができ、類似の文書の探索時間を大幅に短縮することができる。

図１２は、実施の形態２に係る文書分類装置２０が、文書に含まれる文章を項目ごとに整理した事例でデータベース１１に格納されるまでの処理概要を示す図である。

図１２に示されるそれぞれの要素は、上述したので、詳細説明は省略するが、実施の形態２に係る文書分類装置２０は、図１２に示される処理を行うことで、文書に含まれる文章を項目ごとに整理した事例をデータベース１１に蓄積することができる。

なお、データベース１１は、文書に含まれる文章を項目ごとに整理した事例で蓄積されることで、文書に含まれる文章間を意味ネットワークでつなぐことも可能になる。よって、データベース１１を利用することで、コンピュータが知識表現することも可能になるというさらなる効果も奏する。

（他の実施態様の可能性）
以上、実施の形態において本開示の文書分類装置、文書分類方法及びプログラムについて説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサなど（以下に説明）によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。

なお、本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。

また、本開示は、さらに、以下のような場合も含まれる。

（１）上記の装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

（５）また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）Ｄｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

本開示は、文書分類方法、文書分類装置及びプログラムに利用でき、特に文書を少なくとも1つのカテゴリに分類するために用いられる文書分類方法、文書分類装置及びプログラムに利用できる。

１０、２０文書分類装置
１１データベース
１０１入力部
１０２メモリ
１０３第１特徴語抽出部
１０４第１事例抽出部
１０５第２特徴語抽出部
１０６一致度算出部
１０７カテゴリ決定部
１０８出力部
２０９文章範囲特定部
２１０要点作成部
２１１格納処理部

Claims

文書を少なくとも1つのカテゴリに分類することをコンピュータが行う文書分類方法であって、
分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を抽出し、
意味で予め分類された１以上の項目ごとに当該項目の要点を示す第２文章情報が予め含まれた事例であって予め分類された１以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記１以上の第１特徴語に基づいて、前記第１文書に類似する所定数の第１事例を抽出し、
前記所定数の第１事例それぞれの第２文章情報から、前記所定数の第１事例それぞれの１以上の第２特徴語を抽出し、
抽出した前記１以上の第２特徴語に基づいて、前記所定数の第１事例それぞれと、前記第１文書との一致度を算出し、
算出した一致度のうち、最も大きい一致度の第１事例に付与された１以上のカテゴリを、前記第１文書のカテゴリに決定することにより、前記第１文書を少なくとも１つのカテゴリに分類する、
文書分類方法。
前記１以上の第１特徴語を抽出する際、
前記第１文章情報を形態素分析することで、前記第１文章情報に含まれる複数の単語を抽出し、
前記複数の単語の係り受け解析をすることで得た前記複数の単語の出現頻度及び共起関係からスコアを算出し、
算出した前記スコアが閾値以上の１以上の単語を、前記１以上の第１特徴語と決定することで、前記第１文章情報から前記１以上の第１特徴語を抽出する、
請求項１に記載の文書分類方法。
前記所定数の第１事例を抽出する際、
前記データベースに含まれる複数の事例それぞれの前記第２文章情報と、抽出された前記１以上の第１特徴語とを比較して、前記第２文章情報に含まれる単語と、前記１以上の第１特徴語との類似度を算出し、
前記類似度が最上位の第１事例を含み、前記最上位から前記類似度が大きい順に前記所定数の第１事例を抽出する、
請求項１または２に記載の文書分類方法。
前記１以上の第２特徴語を抽出する際、
前記所定数の第１事例それぞれの前記１以上の項目ごとに含まれる第２文章情報から、前記所定数の第１事例それぞれにおける前記１以上の項目ごとの第２特徴語を、前記１以上の第２特徴語として抽出する、
請求項１～３のいずれか１項に記載の文書分類方法。
前記一致度を算出する際、
前記所定数の第１事例それぞれにおける前記１以上の項目ごとの第２特徴語と、前記第１文書に含まれる前記第１文章情報とを比較し、
前記所定数の第１事例それぞれにおける前記１以上の項目ごとに、前記第１文章情報との一致度を示す一致度スコアを算出し、前記所定数の第１事例それぞれにおいて前記一致度スコアを総合して得た総合スコアを、前記所定数の第１事例それぞれと前記第１文書との一致度として算出する、
請求項４に記載の文書分類方法。
前記文書分類方法は、さらに、
前記最も大きい一致度の第１事例における前記１以上の項目ごとの第２特徴語を用いて、前記第１文書に含まれる第１文章情報を検索し、前記第１文章情報における前記１以上の項目ごとの第２特徴語の分布に基づき、前記最も大きい一致度の第１事例における前記１以上の項目に対応する前記第１文書における１以上の項目ごとの内容を示す文章範囲を特定し、
特定された前記文章範囲に含まれる前記第１文章情報から、前記第１文書における１以上の項目ごとに当該項目の内容の要点を作成する、
請求項１～５のいずれか１項に記載の文書分類方法。
前記文書分類方法は、さらに、
前記第１文書を、作成した前記要点と、分類した前記少なくとも１つのカテゴリとを含む新たな第１事例として、前記データベースに格納する、
請求項６に記載の文書分類方法。
前記文章範囲を特定する際、
前記第１文章情報を検索することで得た、前記第１文章情報における前記１以上の項目ごとの第２特徴語の分布であって前記１以上の項目ごとの第２特徴語の近接度、密度及び重みのうち少なくとも１つが所定値以上となる分布に含まれる前記第１文章情報の範囲を、前記項目ごとの内容を示す文章範囲として特定する、
請求項６または７に記載の文書分類方法。
文書を少なくとも1つのカテゴリに分類する文書分類装置であって、
プロセッサと、
メモリと、を備え、
前記プロセッサは、前記メモリに記録されたプログラムを用いて、
分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を抽出し、
意味で予め分類された１以上の項目ごとに当該項目の要点を示す第２文章情報が予め含まれた事例であって予め分類された１以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記１以上の第１特徴語に基づいて、前記第１文書に類似する所定数の第１事例を抽出し、
前記所定数の第１事例それぞれの第２文章情報から、前記所定数の第１事例それぞれの１以上の第２特徴語を抽出し、
抽出した前記１以上の第２特徴語に基づいて、前記所定数の第１事例それぞれと、前記第１文書との一致度を算出し、
算出した一致度のうち、最も大きい一致度の第１事例に付与された１以上のカテゴリを、前記第１文書のカテゴリに決定することにより、前記第１文書を少なくとも１つのカテゴリに分類する、
文書分類装置。
文書を少なくとも1つのカテゴリに分類する文書分類方法をコンピュータに実行させるためのプログラムであって、
分類対象である第１文書に含まれる第１文章情報から１以上の第１特徴語を抽出し、
意味で予め分類された１以上の項目ごとに当該項目の要点を示す第２文章情報が予め含まれた事例であって予め分類された１以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記１以上の第１特徴語に基づいて、前記第１文書に類似する所定数の第１事例を抽出し、
前記所定数の第１事例それぞれの第２文章情報から、前記所定数の第１事例それぞれの１以上の第２特徴語を抽出し、
抽出した前記１以上の第２特徴語に基づいて、前記所定数の第１事例それぞれと、前記第１文書との一致度を算出し、
算出した一致度のうち、最も大きい一致度の第１事例に付与された１以上のカテゴリを、前記第１文書のカテゴリに決定することにより、前記第１文書を少なくとも１つのカテゴリに分類することを、
コンピュータに実行させるためのプログラム。