JP7445891B2 - 文書分類方法、文書分類装置及びプログラム - Google Patents

文書分類方法、文書分類装置及びプログラム Download PDF

Info

Publication number
JP7445891B2
JP7445891B2 JP2020102007A JP2020102007A JP7445891B2 JP 7445891 B2 JP7445891 B2 JP 7445891B2 JP 2020102007 A JP2020102007 A JP 2020102007A JP 2020102007 A JP2020102007 A JP 2020102007A JP 7445891 B2 JP7445891 B2 JP 7445891B2
Authority
JP
Japan
Prior art keywords
document
cases
predetermined number
words
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020102007A
Other languages
English (en)
Other versions
JP2021196786A (ja
Inventor
彰洋 坂口
剛 尾籠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Management Co Ltd
Original Assignee
Panasonic Intellectual Property Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Management Co Ltd filed Critical Panasonic Intellectual Property Management Co Ltd
Priority to JP2020102007A priority Critical patent/JP7445891B2/ja
Priority to US17/331,690 priority patent/US11797592B2/en
Priority to CN202110621773.1A priority patent/CN113807381A/zh
Publication of JP2021196786A publication Critical patent/JP2021196786A/ja
Application granted granted Critical
Publication of JP7445891B2 publication Critical patent/JP7445891B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、文書分類方法、文書分類装置及びプログラムに関する。
例えば特許文献1には、電子化された大量の文書を、内容に応じてカテゴリに分類するための文書分類装置等が開示されている。特許文献1に開示されている技術では、カテゴリ分類対象の文書中の文章に含まれる単語の出現頻度及び共起関係を分析して係り受け解析を行うことを繰り返しながら得た信頼性スコアに基づいて、当該文章の特徴となるフレーズを絞り込んで抽出する。そして、当該文章の特徴となるフレーズを用いて当該文章のカテゴリを生成することで、当該文章のカテゴリを分類する。
特開2014-41481号公報
しかしながら、特許文献1に開示されている技術では文章の特徴となるフレーズを精度よく抽出できないと、精度よくカテゴリを分類できないという問題がある。
より具体的には、文章の特徴となるフレーズを精度よく抽出するためには、出現頻度及び共起関係を分析して係り受け解析を行うといった高度な自然言語処理を繰り返し行い、閾値以上の信頼性スコアを得る必要がある。しかし、このような高度な自然言語処理をコンピュータが行うのには負荷が高く(換言すると計算量が多く)、処理能力を必要とするため、精度のよいフレーズを抽出するのが難しい場合がある。
このため、コンピュータの計算量を削減して、精度よく文章の特徴となるフレーズを抽出できない場合でも、精度よくカテゴリを分類することが期待される。
本開示は、上述の事情を鑑みてなされたもので、文書のカテゴリを精度よく分類できる文書分類方法等を提供することを目的とする。
上記課題を解決するために、本開示の一形態に係る文書分類方法は、文書を少なくとも1つのカテゴリに分類することをコンピュータが行う文書分類方法であって、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類する。
なお、これらの全般的または具体的な態様は、装置、方法、システム、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、装置、方法、システム、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示の文書分類方法等によれば、文書のカテゴリを精度よく分類できる。
図1は、実施の形態1に係る文書分類装置の一例を示すブロック図である。 図2は、実施の形態1に係るデータベースに含まれる事例の一例を示す図である。 図3は、実施の形態1に係る文書分類装置の機能構成例を示すブロック図である。 図4は、実施の形態1に係る第1特徴語抽出部による第1特徴語の抽出方法の一例を示す図である。 図5は、実施の形態1に係る第1事例抽出部が抽出した第1事例の一例を示す図である。 図6は、図5で抽出された5つの第1事例それぞれの項目と第1文書との一致度の一例を示す図である。 図7は、実施の形態1に係る文書分類装置の機能をソフトウェアにより実現するコンピュータのハードウェア構成の一例を示す図である。 図8は、実施の形態1に係る文書分類装置の動作例を示すフローチャートである。 図9は、実施の形態2に係る文書分類装置の機能構成例を示すブロック図である。 図10は、実施の形態2に係る文章範囲特定部により特定された第1文書の項目ごとの内容を示す文章範囲の一例を示す図である。 図11は、実施の形態2に係る要点作成部により作成された第1文書における項目ごとの内容の要点の一例を示す図である。 図12は、実施の形態2に係る文書分類装置が、文書に含まれる文章を項目ごとに整理した事例でデータベース11に格納されるまでの処理概要を示す図である。
(本開示に至った経緯)
近年、例えば技術報告書または論文などの学術文献のように、電子化された大量の文書が蓄積されるようになっている。このため、このような文書を、AI(Artificial Intelligence)などを用いて、内容に応じたカテゴリに自動的に分類させることが期待されている。
電子化された大量の文書のカテゴリが分類されると、それらの文書を検索するのが容易となる。この結果、従来、ベテランの知見に頼っていた不具合の発生原因の把握と不具合の解決とを、ベテランの知見に頼らずに、検索した文書を用いて短時間で行うことができる可能性がある。さらに、学術文献のビッグデータ分析または機械学習を用いて学術文献の内容の分析ができるようになると、不具合の発生原因の把握及び解決をさらに短時間で解決することができる可能性があり、不具合に伴う莫大なリコール費用の発生を抑制できる可能性がある。したがって、電子化された文書のカテゴリを自動的に分類することの社会に与えるインパクトは大きいと言える。
これに対し、上述したように、特許文献1には、電子化された大量の文書を、内容に応じてカテゴリに分類するための文書分類装置等が開示されている。
しかしながら、特許文献1に開示されている技術では、文書に含まれる文章の特徴となるフレーズを絞り込んで抽出する際に煩雑で高度な自然言語処理が必要となる。このような高度な自然言語処理をコンピュータが行うのには負荷が高く、処理能力を必要とするため、精度のよいフレーズを抽出するのが難しい場合がある。
このため、コンピュータの計算量を削減して、精度よく文章の特徴となるフレーズを抽出できない場合でも、精度よくカテゴリを分類することが期待される。
そこで、本開示の一形態に係る文書分類方法は、文書を少なくとも1つのカテゴリに分類することをコンピュータが行う文書分類方法であって、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類する。
この構成により、文書のカテゴリを精度よく分類できる。
より詳細には、この構成により、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を精度よく抽出できなくても、当該第1特徴語を用いて、既に精度よく分類された事例が蓄積されたデータベースから第1文書に類似する所定数の第1事例を抽出する。抽出した所定数の第1事例それぞれから抽出した1以上の第2特徴語を用いて、分類対象である第1文書との一致度を算出し、第1文書に最も近い第1事例のカテゴリを、第1文書のカテゴリに決定する。つまり、既に精度よく分類された事例が蓄積されたデータベースを利用して、第1文書と最も類似する第1事例のカテゴリを用いて第1文書のカテゴリを分類する。これにより、第1特徴語を精度よく抽出できなくても、第1文書のカテゴリを精度よく分類できる。
また、例えば、前記1以上の第1特徴語を抽出する際、前記第1文章情報を形態素分析することで、前記第1文章情報に含まれる複数の単語を抽出し、前記複数の単語の係り受け解析をすることで得た前記複数の単語の出現頻度及び共起関係からスコアを算出し、算出した前記スコアが閾値以上の1以上の単語を、前記1以上の第1特徴語と決定することで、前記第1文章情報から前記1以上の第1特徴語を抽出してもよい。
ここで、例えば、前記所定数の第1事例を抽出する際、前記データベースに含まれる複数の事例それぞれの前記第2文章情報と、抽出された前記1以上の第1特徴語とを比較して、前記第2文章情報に含まれる単語と、前記1以上の第1特徴語との類似度を算出し、前記類似度が最上位の第1事例を含み、前記最上位から前記類似度が大きい順に前記所定数の第1事例を抽出してもよい。
また、例えば、前記1以上の第2特徴語を抽出する際、前記所定数の第1事例それぞれの前記1以上の項目ごとに含まれる第2文章情報から、前記所定数の第1事例それぞれにおける前記1以上の項目ごとの第2特徴語を、前記1以上の第2特徴語として抽出してもよい。
また、例えば、前記一致度を算出する際、前記所定数の第1事例それぞれにおける前記1以上の項目ごとの第2特徴語と、前記第1文書に含まれる前記第1文章情報とを比較し、前記所定数の第1事例それぞれにおける前記1以上の項目ごとに、前記第1文章情報との一致度を示す一致度スコアを算出し、前記所定数の第1事例それぞれにおいて前記一致度スコアを総合して得た総合スコアを、前記所定数の第1事例それぞれと前記第1文書との一致度として算出してもよい。
また、例えば、前記文書分類方法は、さらに、前記最も大きい一致度の第1事例における前記1以上の項目ごとの第2特徴語を用いて、前記第1文書に含まれる第1文章情報を検索し、前記第1文章情報における前記1以上の項目ごとの第2特徴語の分布に基づき、前記最も大きい一致度の第1事例における前記1以上の項目に対応する前記第1文書における1以上の項目ごとの内容を示す文章範囲を特定し、特定された前記文章範囲に含まれる前記第1文章情報から、前記第1文書における1以上の項目ごとに当該項目の内容の要点を作成するとしてもよい。
また、例えば、前記文書分類方法は、さらに、前記第1文書を、作成した前記要点と、分類した前記少なくとも1つのカテゴリとを含む新たな第1事例として、前記データベースに格納してもよい。
また、例えば、前記文章範囲を特定する際、前記第1文章情報を検索することで得た、前記第1文章情報における前記1以上の項目ごとの第2特徴語の分布であって前記1以上の項目ごとの第2特徴語の近接度、密度及び重みのうち少なくとも1つが所定値以上となる分布に含まれる前記第1文章情報の範囲を、前記項目ごとの内容を示す文章範囲として特定してもよい。
また、本開示の一形態に係る文書分類装置は、文書を少なくとも1つのカテゴリに分類する文書分類装置であって、プロセッサと、メモリと、を備え、前記プロセッサは、前記メモリに記録されたプログラムを用いて、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類する。
また、本開示の一形態に係るプログラムは、文書を少なくとも1つのカテゴリに分類する文書分類方法をコンピュータに実行させるためのプログラムであって、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類することを、コンピュータに実行させる。
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態1)
以下では、図面を参照しながら、実施の形態1における文書分類装置等の説明を行う。
[構成]
図1は、実施の形態1に係る文書分類装置10の一例を示すブロック図である。
実施の形態1に係る文書分類装置10は、図1に示すように、既に精度よく分類された事例が蓄積されたデータベース11を利用して、分類対象の文書を少なくとも1つのカテゴリに分類するためのものである。実施の形態1に係る文書分類装置10は、分類対象の文書に対する分類結果として、分類したカテゴリを出力する。
ここで、実施の形態1に係るデータベース11について説明する。
[データベース11]
データベース11は、意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含む。
より具体的には、データベース11には、技術報告書または論文などの学術文献を含む文書を、専門家がその文書に含まれる文章の意味を理解した上でカテゴリを分類して、当該文書を整理した文章を含めた事例が複数格納されている。データベース11には、このように専門家により整理された事例が過去から積み上げられて大量に蓄積(格納)されている。換言すると、データベース11に記憶される事例は、専門家が文書に含まれる文章の意味を理解した上で、カテゴリ分類されている。また、データベース11に記憶される事例には、カテゴリごとの専門家がその文書に含まれる文章の意味を理解した上で、意味で分類(またはタグ付け)された項目ごとに、当該文章の内容を整理して要点を示す文章(第2文書情報が示す文章に該当)が含まれている。
ここで、項目は、事例に整理される文書が不良解析に関する技術報告書である場合には、例えば「現象」、「メカニズム」、「原因」、「処置または対策」との名称が付される。項目の名称は、これらの例に限定されず、事例に整理される文書に含まれる文章の意味で分類され、かつ専門家が当該文章の内容を概括していることが理解可能な名称であればよい。
図2は、実施の形態1に係るデータベース11に含まれる複数の事例の一例を示す図である。
本実施の形態では、データベース11には、図2に示される例のように、カテゴリごとに複数の事例が格納されている。図2において、項目分類事例とは、元の文書の文章が項目ごとに分類され、項目ごとに要点を示す文章が含まれた事例を意味している。図2では、「対象」、「故障モード」、「影響」、「原因」及び「対策」で示される項目1~項目5に、元の文書の文章が分類され作成された要点を示す第2文書情報(不図示)が含まれている場合の例が示されている。より具体的には、図2では、カテゴリAに項目分類事例a~項目分類事例xが含まれ、カテゴリBに項目分類事例a~項目分類事例xが含まれ、…、カテゴリKに項目分類事例aのみが含まれている例が示されている。なお、図2では、事例の元となった文書が参照できるようにURLも付されている。
続いて、図1に示す文書分類装置10の機能構成について説明する。
[文書分類装置10]
図3は、実施の形態1に係る文書分類装置10の機能構成例を示すブロック図である。
文書分類装置10は、CPUなどのプロセッサ(マイクロプロセッサ)、メモリ等を備えるコンピュータで実現される。本実施の形態では、文書分類装置10は、例えば図3に示すように、入力部101と、メモリ102と、第1特徴語抽出部103と、第1事例抽出部104と、第2特徴語抽出部105と、一致度算出部106と、カテゴリ決定部107と、出力部108とを備える。なお、文書分類装置10が入力部101及び出力部108を備えることは必須ではない。
<入力部101>
入力部101には、カテゴリを分類したい文書つまり分類対象の文書が入力される。本実施の形態では、入力部101には、分類対象である第1文書が入力される。ここで、入力部101に入力される第1文書は、上述した技術報告書または論文などの学術文献に限らず、小説などでもよい。つまり、入力部101に入力される第1文書は、そこに含まれる文章からカテゴリ分類が可能で、かつ、当該文章を、意味で分類した複数の項目に分けることができればよい。
<メモリ102>
メモリ102は、記憶媒体の一例であり、例えば、ハードディスクドライブまたはソリッドステートドライブ等の書き換え可能な不揮発性のメモリで構成される。本実施の形態では、メモリ102は、入力部101に入力された第1文書を記憶する。
また、メモリ102は、データベース11から抽出した複数の第1事例を記憶する。
<第1特徴語抽出部103>
第1特徴語抽出部103は、処理負荷の少ない自然言語処理を行うことで、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出する。ここで、第1特徴語は、第1文書に含まれる第1文章情報に示される第1文章を構成し、かつ、当該第1文書の特徴となるフレーズまたは単語である。
より具体的には、まず、第1特徴語抽出部103は、入力部101に入力された第1文書に含まれる第1文章情報を形態素分析することで、第1文章情報に含まれる複数の単語を抽出する。次いで、第1特徴語抽出部103は、複数の単語の係り受け解析をすることで得た複数の単語の出現頻度及び共起関係からスコアを算出する。そして、第1特徴語抽出部103は、算出したスコアが閾値以上の1以上の単語を、1以上の第1特徴語と決定することで、第1文章情報から1以上の第1特徴語を抽出する。
このようにして、第1特徴語抽出部103は、入力部101に入力された第1文書に含まれる第1文章情報を構成する複数の単語の出現頻度及び共起関係から、係り受け解析を行うことで算出されるスコアが大きい複数個の第1特徴語を抽出する。なお、第1特徴語抽出部103は、自然言語処理を繰り返す処理を行わずに、第1特徴語を抽出している。つまり、第1特徴語抽出部103は、処理負荷の少ない自然言語処理を行って算出されるスコアから第1特徴語を抽出している。
図4は、実施の形態1に係る第1特徴語抽出部103による第1特徴語の抽出方法の一例を示す図である。
本実施の形態では、第1特徴語抽出部103は、図4に示される例のように、第1文書に含まれる第1文章情報から複数の単語を抽出し、抽出した複数の単語それぞれの頻度とスコアを算出している。そして、第1特徴語抽出部103は、図4に示す最左側の欄に示される単語のうちスコアが閾値以上の単語を、上述した1以上の第1特徴語として抽出する。図4に示される例では、第1特徴語抽出部103は、「LSI」、「信頼性」、「封止材」、「パッケージ」及び「湿る」を1以上の第1特徴語を抽出している。これにより、第1特徴語抽出部103は、自然言語処理を繰り返す処理を行わずに、算出したスコアを用いて、第1特徴語を抽出しているのがわかる。
<第1事例抽出部104>
第1事例抽出部104は、データベース11から、第1特徴語抽出部103により抽出された1以上の第1特徴語に基づいて、第1文書に類似する所定数の第1事例を抽出する。
より具体的には、まず、第1事例抽出部104は、データベース11に含まれる複数の事例それぞれの第2文章情報と、第1特徴語抽出部103により抽出された1以上の第1特徴語とを比較して、第2文章情報に含まれる単語と、1以上の第1特徴語との類似度を算出する。そして、第1事例抽出部104は、算出した類似度が最上位の第1事例を含み、最上位から当該類似度が大きい順に所定数の第1事例を抽出する。なお、第2文章情報に含まれる単語と、1以上の第1特徴語との類似度は、スコアとして算出されてもよい。
このように、第1事例抽出部104は、第1文書に含まれる1以上の第1特徴語を用いて、データベース11から、第1文書に類似する所定個の第1事例を抽出する。
図5は、実施の形態1に係る第1事例抽出部104が抽出した第1事例の一例を示す図である。なお、図2と同様の要素には同一の名称等が付されており、詳細な説明は省略する。
図5では、データベース11から、カテゴリAとカテゴリDとカテゴリEとに分類される5つの第1事例が抽出された例が示されている。より具体的には、カテゴリAではNO.502とNO.503との第1事例が、カテゴリDではNO.10521とNO.10525との第1事例が、カテゴリEでは、NO.15231の第1事例が、データベース11から抽出された例が示されている。
<第2特徴語抽出部105>
第2特徴語抽出部105は、第1事例抽出部104により抽出された所定数の第1事例それぞれの第2文章情報から、所定数の第1事例それぞれの1以上の第2特徴語を抽出する。
より具体的には、第2特徴語抽出部105は、所定数の第1事例それぞれの1以上の項目ごとに含まれる第2文章情報から、所定数の第1事例それぞれにおける1以上の項目ごとの第2特徴語を、1以上の第2特徴語として抽出する。
このように、第2特徴語抽出部105は、第1事例抽出部104により抽出された所定数の第1事例それぞれに含まれる項目ごとにその特徴語である第2特徴語を抽出する。
<一致度算出部106>
一致度算出部106は、第2特徴語抽出部105が抽出した1以上の第2特徴語に基づいて、所定数の第1事例それぞれと、第1文書との一致度を算出する。
より具体的には、まず、一致度算出部106は、所定数の第1事例それぞれにおける1以上の項目ごとの第2特徴語と、第1文書に含まれる第1文章情報とを比較する。次いで、一致度算出部106は、所定数の第1事例それぞれにおける1以上の項目ごとに、第1文章情報との一致度を示す一致度スコアを算出する。そして、一致度算出部106は、所定数の第1事例それぞれにおいて一致度スコアを総合して得た総合スコアを、所定数の第1事例それぞれと第1文書との一致度として算出する。
このように、一致度算出部106は、所定数の第1事例それぞれにおいて項目ごとに抽出された第2特徴語を用いて、第1文書と比較して、所定数の第1事例それぞれと第1文書との一致度を算出する。
図6は、図5で抽出された5つの第1事例それぞれの項目と第1文書との一致度の一例を示す図である。なお、図5と同様の要素には同一の名称等が付されており、詳細な説明は省略する。
図6には、カテゴリAにおけるNO.502及びNO.503、カテゴリDにおけるNO.10521及びNO.10525、カテゴリEのけるNO.15231の第1事例それぞれの項目ごとに第2特徴語を抽出して、第1文書との一致度を算出した結果の一例が示されている。また、図6では、第1文書との一致度が最も高い項目を◎で表現しており、それより一致度が低下する順に、◎→〇→▲→×とした。なお、◎は一致度を示すスコアが70以上である場合を示し、〇は一致度を示すスコアが70より小さく60以上である場合を示し、▲は一致度を示すスコアが50より小さく30以上である場合を示している。×は、図6では表現されていないが一致度を示すスコアが30より小さい場合を示している。
図6から、図5で抽出された5つの第1事例のうち、第1文書との一致度が最も高い第1事例は、NO.503の第1事例であることがわかる。
<カテゴリ決定部107>
カテゴリ決定部107は、一致度算出部106が算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、第1文書のカテゴリに決定することにより、第1文書を少なくとも1つのカテゴリに分類する。
なお、図6に示される例では、第1文書との一致度が最も高い第1事例は、NO.503であることから、カテゴリ決定部107は、第1文書のカテゴリは、カテゴリAであると分類する。
このように、カテゴリ決定部107は、一致度の最も大きい項目を多く有する第1事例を選出し、選出した第1事例のカテゴリを、第1文書のカテゴリと決定する。
<出力部108>
出力部108は、カテゴリ決定部107により決定された第1文書のカテゴリを、分類結果すなわち分類した第1文書のカテゴリとして出力する。
[文書分類装置10のハードウェア構成]
次に、本実施の形態に係る文書分類装置10のハードウェア構成について、図7を用いて説明する。図7は、本実施の形態に係る文書分類装置10の機能をソフトウェアにより実現するコンピュータ1000のハードウェア構成の一例を示す図である。
コンピュータ1000は、図7に示すように、入力装置1001、出力装置1002、CPU1003、内蔵ストレージ1004、RAM1005、読取装置1007、送受信装置1008及びバス1009を備えるコンピュータである。入力装置1001、出力装置1002、CPU1003、内蔵ストレージ1004、RAM1005、読取装置1007及び送受信装置1008は、バス1009により接続される。
入力装置1001は入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。なお、入力装置1001は、ユーザの接触操作を受け付ける他、音声での操作、リモコン等での遠隔操作を受け付ける構成であってもよい。
内蔵ストレージ1004は、フラッシュメモリなどである。また、内蔵ストレージ1004は、文書分類装置10の機能を実現するためのプログラム、及び、文書分類装置10の機能構成を利用したアプリケーションの少なくとも一方が、予め記憶されていてもよい。
RAM1005は、ランダムアクセスメモリ(Random Access Memory)であり、プログラム又はアプリケーションの実行に際してデータ等の記憶に利用される。
読取装置1007は、USB(Universal Serial Bus)メモリなどの記録媒体から情報を読み取る。読取装置1007は、上記のようなプログラムやアプリケーションが記録された記録媒体からそのプログラムやアプリケーションを読み取り、内蔵ストレージ1004に記憶させる。
送受信装置1008は、無線又は有線で通信を行うための通信回路である。送受信装置1008は、例えばネットワークに接続されたサーバ装置と通信を行い、サーバ装置から上記のようなプログラムやアプリケーションをダウンロードして内蔵ストレージ1004に記憶させる。
CPU1003は、中央演算処理装置(Central Processing Unit)であり、内蔵ストレージ1004に記憶されたプログラム、アプリケーションをRAM1005にコピーし、そのプログラムやアプリケーションに含まれる命令をRAM1005から順次読み出して実行する。
[動作]
続いて、上述のように構成された文書分類装置10の動作の一例について以下説明する。
図8は、実施の形態1に係る文書分類装置10の動作例を示すフローチャートである。
文書分類装置10は、プロセッサとメモリとを備え、プロセッサと、メモリに記録されたプログラムとを用いて、以下のステップS101~ステップS105の処理を行う。より具体的には、まず、文書分類装置10は、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出する(S101)。次に、文書分類装置10は、ステップS101で抽出された1以上の第1特徴語に基づいて、事例を複数含むデータベース11から、第1文書に類似する所定数の第1事例を抽出する(S102)。次に、文書分類装置10は、ステップS102で抽出した所定数の第1事例それぞれの第2文章情報から、所定数の第1事例それぞれの1以上の第2特徴語を抽出する(S103)。次に、文書分類装置10は、ステップS103で抽出した1以上の第2特徴語に基づいて、所定数の第1事例それぞれと第1文書との一致度を算出する(S104)。次に、文書分類装置10は、ステップS104で算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、第1文書のカテゴリに決定する(S105)。
そして、文書分類装置10は、ステップS104で決定された第1文書のカテゴリを、分類結果すなわち分類した第1文書のカテゴリとして出力する。
[効果等]
以上のようにして、文書分類装置10は、分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を精度よく抽出しなくても、既に精度よく分類された事例が蓄積されたデータベース11を利用することで、文書のカテゴリを精度よく分類できる。
より具体的には、文書分類装置10は、分類対象である第1文書に含まれる第1文章情報から複数の第1特徴語を抽出し、1以上の第1特徴語を抽出した際に算出したスコアが高い1以上の第1特徴語を用いて、データベース11から第1文書に類似する所定数の第1事例を抽出する。これにより、文書分類装置10は、特許文献1に開示される技術と比較して、自然言語処理を繰り返す処理を行わずに、分類対象である第1文書に含まれる第1文章情報から、1以上の第1特徴語を抽出する。つまり、文書分類装置10は、コンピュータの計算量を削減しつつ、1以上の第1特徴語を抽出することができる。
さらに、文書分類装置10は、抽出した所定数の第1事例それぞれから抽出した1以上の第2特徴語を用いて、分類対象である第1文書との一致度を算出し、第1文書に最も近い第1事例のカテゴリを、第1文書のカテゴリに決定する。つまり、文書分類装置10は、既に精度よく分類された事例が蓄積されたデータベース11を利用して、第1文書と最も類似する第1事例のカテゴリを第1文書のカテゴリとすることで、第1文書のカテゴリを分類する。これにより、文書分類装置10は、第1特徴語を精度よく抽出しなくても、第1文書のカテゴリを精度よく分類できる。
よって、文書分類装置10は、自然言語処理の繰り返しなどの複雑な処理を必要としないので、コンピュータの計算量を削減しつつ、文書のカテゴリを精度よく分類できる。
なお、本実施の形態において、文書分類装置10は、データベース11を利用しても、第1文書と類似する第1事例がない場合には、当該第1文書に新しいカテゴリを分類してもよい。また、文書分類装置10は、データベース11を利用することで、第1文書と最も類似する第1事例が複数ある場合には、複数の第1事例それぞれのカテゴリすべてを、第1文書のカテゴリに分類してもよい。
以上のように、本実施の形態によれば、文書分類装置10は、文書のカテゴリを精度よく分類できる。
(実施の形態2)
実施の形態1では、データベース11を利用して、分類対象の文書を少なくとも1つのカテゴリに分類する文書分類装置10について説明したが、これに限らない。文書分類装置は、データベース11を利用して、分類対象の文書のカテゴリを分類するとともに、当該文書に含まれる文章をその内容に応じて項目ごと分類して、整理かつ要約した文である要点を作成してもよい。この場合の文書分類装置20等について、実施の形態2として説明する。なお、以下では、実施の形態1と異なるところを中心に説明する。
[文書分類装置20]
図9は、実施の形態2に係る文書分類装置20の機能構成例を示すブロック図である。図9に示す文書分類装置20は、実施の形態1に係る文書分類装置10に対して、文章範囲特定部209と、要点作成部210と、格納処理部211との構成が追加されている点で異なる。
<文章範囲特定部209>
文章範囲特定部209は、一致度算出部106が算出した一致度のうち、最も大きい一致度の第1事例における1以上の項目ごとの第2特徴語を用いて、第1文書に含まれる第1文章情報を検索する。文章範囲特定部209は、検索することで得た、第1文章情報における1以上の項目ごとの第2特徴語の分布に基づき、当該最も大きい一致度の第1事例における1以上の項目に対応する、第1文書における1以上の項目ごとの内容を示す文章範囲を特定する。より具体的には、文章範囲特定部209は、第1文章情報を検索することで、第1文章情報における1以上の項目ごとの第2特徴語の分布であって1以上の項目ごとの第2特徴語の近接度、密度及び重みのうち少なくとも1つが所定値以上となる分布を得る。そして、文章範囲特定部209は、第1文章情報を検索することで得た当該分布に含まれる第1文章情報の範囲を、項目ごとの内容を示す文章範囲として特定する。
本実施の形態では、文章範囲特定部209は、当該最も大きい一致度の第1事例について第2特徴語抽出部105により抽出された第2特徴語を用いて、第1文書に含まれる第1文章情報を検索する。例えば、文章範囲特定部209は、まず、第1文章情報を検索し、第1文章情報が示す文章中の第2特徴語をマーキングしてもよい。次いで、文章範囲特定部209は、マーキングした当該第2特徴語の間の近接度及び密度(頻度)、さらには当該第2特徴語の重み付けなどから、当該第2特徴語の密集度を示す分布を作成し、第1文章情報をハイライト処理またはヒートマップ処理する。そして、文章範囲特定部209は、ハイライト処理またはヒートマップ処理された第1文章情報の領域のうち、適切な閾値以上の領域を、項目ごとの内容を示す文章範囲として特定する。
なお、文章範囲特定部209は、当該最も大きい一致度の第1事例から抽出された第2特徴語を用いて、第1文書に含まれる第1文章情報を検索する場合に限らない。文章範囲特定部209は、当該最も大きい一致度の第1事例から抽出された第2特徴語と、類似語辞典などから抽出したこの第2特徴語に関連する重要キーワードである関連語とを用いて、第1文章情報を検索してもよい。
図10は、実施の形態2に係る文章範囲特定部209により特定された第1文書の項目ごとの内容を示す文章範囲の一例を示す図である。図10には、例えば技術報告書などの第1文書に含まれる第1文章情報が示す文章において、例えば「現象」、「メカニズム」、「原因」、及び「対策」などの項目1~項目4の内容を示す文章範囲がハッチングされた枠により特定された場合の一例が示されている。
このようにして、文章範囲特定部209は、第1文書に類似する第1事例の項目ごとに抽出された第2特徴語を用いて、第1文書の項目ごとの内容を示す文章範囲を特定することができる。
<要点作成部210>
要点作成部210は、文章範囲特定部209により特定された文章範囲に含まれる第1文章情報から、第1文書における1以上の項目ごとに当該項目の内容の要点を作成する。
要点作成部210は、文章範囲特定部209により特定された文章範囲に対して自然言語処理を行うことにより、第1文書における項目ごとの内容の要点を作成する。なお、ここでの自然言語処理は、既存のソフトを導入することにより実現されるので詳細な説明は省略する。
図11は、実施の形態2に係る要点作成部210により作成された第1文書における項目ごとの内容の要点の一例を示す図である。
図11に示す例では、第1文書が不良解析に関する技術報告書である場合に、「現象」、「メカニズム」、「原因」、「対策」である複数の項目ごとに文章範囲特定部209により特定された文章範囲に含まれる第1文章情報から、内容の要点が作成されている。
図11から、内容の要点が作成されることで、第1文書を精読しなくても、第1文書の項目ごとの要点を一目瞭然で確認できるので、第1文書に含まれる第1文章情報の意味を理解できるのがわかる。
<格納処理部211>
格納処理部211は、第1文書を、要点作成部210が作成した要点と、分類した少なくとも1つのカテゴリとを含む新たな第1事例として、データベース11に格納する。
[効果等]
以上のようにして、文書分類装置20は、既に精度よく分類された事例が蓄積されたデータベース11を利用することで、第1文書のカテゴリを分類することができ、かつ、第1文書の文章を項目別に分類整理して項目別の要点を作成することができる。
つまり、まず、文書分類装置20も、特許文献1に開示される技術と比較して、自然言語処理を繰り返す処理を行わずに、データベース11を利用して、第1文書のカテゴリを精度よく分類することができる。なお、文書分類装置20は、データベース11を利用して第1文書のカテゴリを分類するため、長大な文章が含まれる第1文書でも、第1文書のカテゴリを精度よく分類することができる。よって、文書分類装置20は、自然言語処理の繰り返しなどの複雑な処理を必要としないので、コンピュータの計算量を削減しつつ、第1文書のカテゴリを精度よく分類できる。
さらに、文書分類装置20は、データベース11を利用して、第1文書に含まれる第1文章の意味理解を手助けする項目ごとに分類したときの項目別の要点を作成することができる。これにより、第1文書に含まれる第1文章情報に示される文章を精読しなくても、当該文章に書かれている意味を容易に理解できる。
また、文書分類装置20は、第1文書を、その項目ごとの内容の要点と、そのカテゴリとを含む事例としてデータベース11に格納する。これにより、文書の検索者は、知りたいことが書かれている文書を検索できる従来のデータベースではなく、文書に含まれる文章にある散らばった意味を概念化して明示された文章を含む事例が格納されたデータベース11を検索することができる。よって、検索者は、文書を多大な時間をかけて精読しなくても、文書が事例として格納されたデータベース11を利用することで、知りたいことが書かれているかを短時間で知ることができる。つまり、データベース11には、要点が項目別に整理された事例が蓄積されているので、事例の元になった文書に書かれている意味を容易に理解ができ、類似の文書の探索時間を大幅に短縮することができる。
図12は、実施の形態2に係る文書分類装置20が、文書に含まれる文章を項目ごとに整理した事例でデータベース11に格納されるまでの処理概要を示す図である。
図12に示されるそれぞれの要素は、上述したので、詳細説明は省略するが、実施の形態2に係る文書分類装置20は、図12に示される処理を行うことで、文書に含まれる文章を項目ごとに整理した事例をデータベース11に蓄積することができる。
なお、データベース11は、文書に含まれる文章を項目ごとに整理した事例で蓄積されることで、文書に含まれる文章間を意味ネットワークでつなぐことも可能になる。よって、データベース11を利用することで、コンピュータが知識表現することも可能になるというさらなる効果も奏する。
(他の実施態様の可能性)
以上、実施の形態において本開示の文書分類装置、文書分類方法及びプログラムについて説明したが、各処理が実施される主体や装置に関しては特に限定しない。ローカルに配置された特定の装置内に組み込まれたプロセッサなど(以下に説明)によって処理されてもよい。またローカルの装置と異なる場所に配置されているクラウドサーバなどによって処理されてもよい。
なお、本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
また、本開示は、さらに、以下のような場合も含まれる。
(1)上記の装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
(5)また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD-ROM、MO、DVD、DVD-ROM、DVD-RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
本開示は、文書分類方法、文書分類装置及びプログラムに利用でき、特に文書を少なくとも1つのカテゴリに分類するために用いられる文書分類方法、文書分類装置及びプログラムに利用できる。
10、20 文書分類装置
11 データベース
101 入力部
102 メモリ
103 第1特徴語抽出部
104 第1事例抽出部
105 第2特徴語抽出部
106 一致度算出部
107 カテゴリ決定部
108 出力部
209 文章範囲特定部
210 要点作成部
211 格納処理部

Claims (10)

  1. 文書を少なくとも1つのカテゴリに分類することをコンピュータが行う文書分類方法であって、
    分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、
    意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、
    前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、
    抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、
    算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類する、
    文書分類方法。
  2. 前記1以上の第1特徴語を抽出する際、
    前記第1文章情報を形態素分析することで、前記第1文章情報に含まれる複数の単語を抽出し、
    前記複数の単語の係り受け解析をすることで得た前記複数の単語の出現頻度及び共起関係からスコアを算出し、
    算出した前記スコアが閾値以上の1以上の単語を、前記1以上の第1特徴語と決定することで、前記第1文章情報から前記1以上の第1特徴語を抽出する、
    請求項1に記載の文書分類方法。
  3. 前記所定数の第1事例を抽出する際、
    前記データベースに含まれる複数の事例それぞれの前記第2文章情報と、抽出された前記1以上の第1特徴語とを比較して、前記第2文章情報に含まれる単語と、前記1以上の第1特徴語との類似度を算出し、
    前記類似度が最上位の第1事例を含み、前記最上位から前記類似度が大きい順に前記所定数の第1事例を抽出する、
    請求項1または2に記載の文書分類方法。
  4. 前記1以上の第2特徴語を抽出する際、
    前記所定数の第1事例それぞれの前記1以上の項目ごとに含まれる第2文章情報から、前記所定数の第1事例それぞれにおける前記1以上の項目ごとの第2特徴語を、前記1以上の第2特徴語として抽出する、
    請求項1~3のいずれか1項に記載の文書分類方法。
  5. 前記一致度を算出する際、
    前記所定数の第1事例それぞれにおける前記1以上の項目ごとの第2特徴語と、前記第1文書に含まれる前記第1文章情報とを比較し、
    前記所定数の第1事例それぞれにおける前記1以上の項目ごとに、前記第1文章情報との一致度を示す一致度スコアを算出し、前記所定数の第1事例それぞれにおいて前記一致度スコアを総合して得た総合スコアを、前記所定数の第1事例それぞれと前記第1文書との一致度として算出する、
    請求項4に記載の文書分類方法。
  6. 前記文書分類方法は、さらに、
    前記最も大きい一致度の第1事例における前記1以上の項目ごとの第2特徴語を用いて、前記第1文書に含まれる第1文章情報を検索し、前記第1文章情報における前記1以上の項目ごとの第2特徴語の分布に基づき、前記最も大きい一致度の第1事例における前記1以上の項目に対応する前記第1文書における1以上の項目ごとの内容を示す文章範囲を特定し、
    特定された前記文章範囲に含まれる前記第1文章情報から、前記第1文書における1以上の項目ごとに当該項目の内容の要点を作成する、
    請求項1~5のいずれか1項に記載の文書分類方法。
  7. 前記文書分類方法は、さらに、
    前記第1文書を、作成した前記要点と、分類した前記少なくとも1つのカテゴリとを含む新たな第1事例として、前記データベースに格納する、
    請求項6に記載の文書分類方法。
  8. 前記文章範囲を特定する際、
    前記第1文章情報を検索することで得た、前記第1文章情報における前記1以上の項目ごとの第2特徴語の分布であって前記1以上の項目ごとの第2特徴語の近接度、密度及び重みのうち少なくとも1つが所定値以上となる分布に含まれる前記第1文章情報の範囲を、前記項目ごとの内容を示す文章範囲として特定する、
    請求項6または7に記載の文書分類方法。
  9. 文書を少なくとも1つのカテゴリに分類する文書分類装置であって、
    プロセッサと、
    メモリと、を備え、
    前記プロセッサは、前記メモリに記録されたプログラムを用いて、
    分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、
    意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、
    前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、
    抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、
    算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類する、
    文書分類装置。
  10. 文書を少なくとも1つのカテゴリに分類する文書分類方法をコンピュータに実行させるためのプログラムであって、
    分類対象である第1文書に含まれる第1文章情報から1以上の第1特徴語を抽出し、
    意味で予め分類された1以上の項目ごとに当該項目の要点を示す第2文章情報が予め含まれた事例であって予め分類された1以上のカテゴリが付与された事例を複数含むデータベースから、抽出された前記1以上の第1特徴語に基づいて、前記第1文書に類似する所定数の第1事例を抽出し、
    前記所定数の第1事例それぞれの第2文章情報から、前記所定数の第1事例それぞれの1以上の第2特徴語を抽出し、
    抽出した前記1以上の第2特徴語に基づいて、前記所定数の第1事例それぞれと、前記第1文書との一致度を算出し、
    算出した一致度のうち、最も大きい一致度の第1事例に付与された1以上のカテゴリを、前記第1文書のカテゴリに決定することにより、前記第1文書を少なくとも1つのカテゴリに分類することを、
    コンピュータに実行させるためのプログラム。
JP2020102007A 2020-06-12 2020-06-12 文書分類方法、文書分類装置及びプログラム Active JP7445891B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020102007A JP7445891B2 (ja) 2020-06-12 2020-06-12 文書分類方法、文書分類装置及びプログラム
US17/331,690 US11797592B2 (en) 2020-06-12 2021-05-27 Document classification method, document classifier, and recording medium
CN202110621773.1A CN113807381A (zh) 2020-06-12 2021-06-03 文件分类方法、文件分类装置以及记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020102007A JP7445891B2 (ja) 2020-06-12 2020-06-12 文書分類方法、文書分類装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2021196786A JP2021196786A (ja) 2021-12-27
JP7445891B2 true JP7445891B2 (ja) 2024-03-08

Family

ID=78825537

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020102007A Active JP7445891B2 (ja) 2020-06-12 2020-06-12 文書分類方法、文書分類装置及びプログラム

Country Status (3)

Country Link
US (1) US11797592B2 (ja)
JP (1) JP7445891B2 (ja)
CN (1) CN113807381A (ja)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276487A (ja) 1999-03-26 2000-10-06 Mitsubishi Electric Corp 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
JP2004206308A (ja) 2002-12-24 2004-07-22 Matsushita Electric Works Ltd 設計支援システム
JP2008269375A (ja) 2007-04-23 2008-11-06 Hidetsugu Nanba 情報処理装置、情報処理方法、及びプログラム
JP2017054202A (ja) 2015-09-07 2017-03-16 パナソニックIpマネジメント株式会社 情報処理装置、不具合原因特定方法及びプログラム
JP2017215803A (ja) 2016-05-31 2017-12-07 株式会社Nttドコモ 特徴語抽出装置
JP2018073354A (ja) 2016-11-04 2018-05-10 Kddi株式会社 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP2019125124A (ja) 2018-01-16 2019-07-25 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム
JP2020021455A (ja) 2019-03-28 2020-02-06 株式会社AI Samurai 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3488063B2 (ja) 1997-12-04 2004-01-19 株式会社エヌ・ティ・ティ・データ 情報分類方法、装置及びシステム
JP2006293767A (ja) 2005-04-12 2006-10-26 Nomura Research Institute Ltd 文章分類装置、文章分類方法および分類辞書作成装置
JP5526199B2 (ja) 2012-08-22 2014-06-18 株式会社東芝 文書分類装置および文書分類処理プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276487A (ja) 1999-03-26 2000-10-06 Mitsubishi Electric Corp 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
JP2004206308A (ja) 2002-12-24 2004-07-22 Matsushita Electric Works Ltd 設計支援システム
JP2008269375A (ja) 2007-04-23 2008-11-06 Hidetsugu Nanba 情報処理装置、情報処理方法、及びプログラム
JP2017054202A (ja) 2015-09-07 2017-03-16 パナソニックIpマネジメント株式会社 情報処理装置、不具合原因特定方法及びプログラム
JP2017215803A (ja) 2016-05-31 2017-12-07 株式会社Nttドコモ 特徴語抽出装置
JP2018073354A (ja) 2016-11-04 2018-05-10 Kddi株式会社 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP2019125124A (ja) 2018-01-16 2019-07-25 ヤフー株式会社 抽出装置、抽出方法、及び抽出プログラム
JP2020021455A (ja) 2019-03-28 2020-02-06 株式会社AI Samurai 特許評価判定方法、特許評価判定装置、および特許評価判定プログラム

Also Published As

Publication number Publication date
US11797592B2 (en) 2023-10-24
CN113807381A (zh) 2021-12-17
JP2021196786A (ja) 2021-12-27
US20210390297A1 (en) 2021-12-16

Similar Documents

Publication Publication Date Title
Saravanan et al. Identification of rhetorical roles for segmentation and summarization of a legal judgment
US20130060769A1 (en) System and method for identifying social media interactions
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
JP2009514076A (ja) テキスト表現の類似性を定量化するコンピュータを用いた自動類似度計算システム
JP2018045559A (ja) 情報処理装置、情報処理方法およびプログラム
JP2014106665A (ja) 文書検索装置、文書検索方法
CN115374781A (zh) 文本数据信息挖掘方法、装置、设备
US20120316865A1 (en) Information processing apparatus, information processing method, and program
US8862586B2 (en) Document analysis system
JP2006227823A (ja) 情報処理装置及びその制御方法
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
JP7445891B2 (ja) 文書分類方法、文書分類装置及びプログラム
Wei et al. Finding related publications: extending the set of terms used to assess article similarity
CN111274483A (zh) 关联推荐方法及关联推荐交互方法
Pribán et al. Towards Automatic Medical Report Classification in Czech.
Goumy et al. Ecommerce Product Title Classification.
CN113868431A (zh) 面向金融知识图谱的关系抽取方法、装置及存储介质
Gupta et al. Comparative analysis of term extraction and selection techniques for query reformulation using prf
US11928427B2 (en) Linguistic analysis of seed documents and peer groups
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
KR101088483B1 (ko) 이종 분류체계들을 매핑시키는 방법 및 장치
JP2021128620A (ja) 文書情報評価装置および文書情報評価方法並びに文書情報評価プログラム
WO2015125088A1 (en) Document characterization method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230320

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231226

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240215

R151 Written notification of patent or utility model registration

Ref document number: 7445891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151