JP2018073354A - 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム - Google Patents

類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム Download PDF

Info

Publication number
JP2018073354A
JP2018073354A JP2016216404A JP2016216404A JP2018073354A JP 2018073354 A JP2018073354 A JP 2018073354A JP 2016216404 A JP2016216404 A JP 2016216404A JP 2016216404 A JP2016216404 A JP 2016216404A JP 2018073354 A JP2018073354 A JP 2018073354A
Authority
JP
Japan
Prior art keywords
document
similarity
item
feature amount
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016216404A
Other languages
English (en)
Other versions
JP6722565B2 (ja
Inventor
英 渡邊
Suguru Watanabe
英 渡邊
祥平 三家
Shohei Mitsuya
祥平 三家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2016216404A priority Critical patent/JP6722565B2/ja
Publication of JP2018073354A publication Critical patent/JP2018073354A/ja
Application granted granted Critical
Publication of JP6722565B2 publication Critical patent/JP6722565B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】複数の作業項目を含む類似文書を精度良く抽出できる類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラムを提供すること。【解決手段】類似文書抽出装置1は、検索キーとなるキー文書の入力を受け付ける入力部13と、文書構成情報に基づいて、文書を複数の項目に分割する分割部11と、項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出部12と、複数の対象文書それぞれの特徴量とキー文書の特徴量との類似度を算出する類似度算出部14と、複数の対象文書から、類似度の降順に文書を抽出する抽出部15と、を備える。【選択図】図1

Description

本発明は、キー文書に類似した文書を検索する類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラムに関する。
従来、ある文書を検索キーにして、この文書と類似した文書を複数の検索対象文書から抽出する手法が用いられている。これらの手法では、一般に、検索キーである文書に含まれる単語と、検索対象文書に含まれる単語とを比較し、一致度又は類似性に基づいて、ベクトル空間法等を用いて、検索キー文書に対する検索対象文書の類似度が算出される。そして、この類似度が高い文書が類似文書として複数の検索対象文書から抽出される。
また、文書を構成する項目単位で類似度を算出し、少なくとも一部が類似する文書を抽出する手法が提案されている(例えば、特許文献1参照)。
特開2000−331027号公報
ところで、ある作業を行う場合に、過去の類似した作業事例を参考にして作業を計画及び遂行する意義は大きい。この場合、一連の作業の内容は、個々の作業項目のみならず、これらを実施する順序、すなわち作業手順が重要であり、作業全体の内容を特徴付ける重要な情報となる。
しかしながら、特許文献1の手法では、一部の作業項目のみが類似する文書を抽出できるものの、これらの作業項目の順序性は考慮されないため、複数の作業項目からなる類似文書の抽出手法としては高い精度を期待できなかった。
本発明は、複数の作業項目を含む類似文書を精度良く抽出できる類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラムを提供することを目的とする。
本発明に係る類似文書抽出装置は、検索キーとなるキー文書の入力を受け付ける入力部と、文書構成情報に基づいて、文書を複数の項目に分割する分割部と、前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出部と、複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出部と、前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出部と、を備える。
前記類似度算出部は、前記項目情報が連続して一致する数が多いほど、前記類似度を高く算出してもよい。
前記類似度算出部は、前記対象文書の組み合わせに対して、前記キー文書との前記類似度を算出し、前記抽出部は、前記類似度の降順に前記組み合わせを抽出してもよい。
前記特徴量算出部は、前記項目情報の確度を算出し、前記類似度算出部は、前記確度により前記類似度を調整してもよい。
前記特徴量算出部は、前記項目毎に複数の項目情報及び確度を算出し、前記類似度算出部は、前記項目情報を変更した場合の類似度をさらに算出してもよい。
前記抽出部は、前記複数の項目情報のうち、前記確度が最大の項目情報から変更した前記項目を示す出力を行ってもよい。
本発明に係る類似文書抽出方法は、検索キーとなるキー文書の入力を受け付ける入力ステップと、文書構成情報に基づいて、文書を複数の項目に分割する分割ステップと、前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出ステップと、複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出ステップと、前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出ステップと、をコンピュータが実行する。
本発明に係る類似文書抽出プログラムは、検索キーとなるキー文書の入力を受け付ける入力ステップと、文書構成情報に基づいて、文書を複数の項目に分割する分割ステップと、前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出ステップと、複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出ステップと、前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出ステップと、をコンピュータに実行させる。
本発明によれば、複数の作業項目を含む類似文書が精度良く抽出される。
実施形態に係る類似文書抽出装置の機能構成を示す図である。 実施形態に係る特徴量の類似度を説明する図である。 実施形態に係る類似文書抽出方法の手順を示す概要図である。 実施形態に係る特徴量データベースの作成処理を示すフローチャートである。 実施形態に係る類似文書抽出方法を示すフローチャートである。 実施形態の変形例を示す図である。
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態に係る類似文書抽出装置1の機能構成を示す図である。
類似文書抽出装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス又は通信デバイス等を備える。
制御部10は、類似文書抽出装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各種機能を実現している。制御部10は、CPUであってよい。
記憶部20は、ハードウェア群を類似文書抽出装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるプログラムを記憶する。
制御部10は、分割部11と、特徴量算出部12と、入力部13と、類似度算出部14と、抽出部15とを備える。また、記憶部20は、文書データベース21と、特徴量データベース22と、文書構成データベース23とを備える。
文書データベース21には、検索対象文書が蓄積されている。本実施形態では、検索対象文書は、ある種の一連の作業について作成された文書であるものとする。各検索対象文書には、例えば、作業識別子、作業名、作業日時、担当部署名、作業目的、作業概要、作業手順、注意事項、作業結果等の記載が含まれる。
特徴量データベース22には、検索対象文書それぞれについて、一連の作業を構成する作業項目の分類ラベル(項目情報)、及びこれら作業項目の実施順序(順序情報)を含む特徴量が記憶される。
文書構成データベース23には、検索対象文書、及び検索キーとなるキー文書の作成に用いられる各種の規則が定義された文書構成データが記憶される。文書構成データは、例えば、予め指定された雛形手順書データ、又は手順番号等を示す特殊文字列の定義データ等である。なお、文書構成データは、複数の文書に共通であってもよいし、文書毎に設けられていてもよい。
分割部11は、文書構成データベース23の文書構成データに基づいて、文書データベース21の検索対象文書、及びキー文書を複数の作業項目に分割する。
特徴量算出部12は、分割された作業項目に含まれる単語の出現頻度等に基づいて、この作業項目を分類した分類ラベル、及びこの作業項目の実施順序を含む特徴量を算出する。
ここで、分類ラベルは、予め設定された複数の種別を示す符号であってよい。あるいは、例えば、クラスタリング処理の結果であるグループに付与される符号であってもよい。
また、特徴量算出部12は、分類ラベルの確度、すなわち分割された作業項目の内容がこの分類ラベルで表される種別である確からしさの度合いを算出し、最も高い確度の分類ラベルを付与する。このとき、特徴量算出部12は、作業項目毎に複数の分類ラベル及び確度を特徴量として算出してもよい。例えば、確度が低い場合には分類ラベルが不正確である可能性が高くなるため、特徴量算出部12は、最大の確度が所定以下の場合に他の候補としての分類ラベル及び確度を算出する。
入力部13は、検索キーとなるキー文書の入力を受け付ける。
キー文書は、文書データベース21の検索対象文書と同様の記載内容であり、文書構成データベース23の文書構成データに則り作成されているものとする。
類似度算出部14は、特徴量データベース22に記憶された複数の検索対象文書それぞれの特徴量と、キー文書の特徴量との類似度を算出する。
このとき、類似度算出部14は、特徴量における分類ラベルが連続して一致する数が多いほど、類似度を高く算出する。また、類似度算出部14は、分類ラベルの確度により類似度を調整し、複数の分類ラベルのそれぞれに変更した場合の類似度をさらに算出する。
さらに、類似度算出部14は、検索対象文書の組み合わせに対して、キー文書との類似度を算出してもよい。
抽出部15は、複数の検索対象文書から、類似度の降順に単一の文書又は文書の組み合わせを抽出し、類似事例として出力する。
このとき、抽出部15は、複数の分類ラベルのうち、確度が最大の項目情報から変更した作業項目を明示する出力を行う。
図2は、本実施形態に係る特徴量の類似度を説明する図である。
キー文書における各作業項目の分類ラベルが「27,64,1,2,3,4,5,6,7,8,139,241」のように順に付与された場合、検索対象文書Aの分類ラベルとは、「1,2,3」及び「5,6」が一致し、検索対象文書Bの分類ラベルとは、「1,2,3」及び「5,6,7,8」が一致している。この場合、より長い分類ラベルの列が一致している検索対象文書Bの類似度が高く算出される。
また、検索対象文書Bにおいて分類ラベル「44」が付与された作業項目には、確度が「44」よりも低いものの分類ラベル「4」が選択されているとする。この場合、分類ラベル「44」を「4」に変更することで、「1,2,3,4,5,6,7,8」という、より長い分類ラベルの列が一致するため、類似度がさらに高く算出された検索対象文書B’が抽出される。
このとき、確度が最大の分類ラベル「44」が「4」に変更されたため、この作業項目が強調表示される。
図3は、本実施形態に係る類似文書抽出方法の手順を示す概要図である。
まず、類似文書抽出装置1は、文書データベース21に蓄積された検索対象文書のそれぞれを、文書構成データベース23の文書構成データに基づいて分割し、複数の作業項目1〜Xを切り出す。
続いて、類似文書抽出装置1は、切り出した複数の作業項目それぞれの分類ラベル(項目情報)と実施順序(順序情報)とを計算し、特徴量データベース22に格納する。
類似文書抽出装置1は、キー文書が入力されると、検索対象文書と同様に、文書構成データベース23の文書構成データに基づいてキー文書を分割し、複数の作業項目1〜Yを切り出す。
続いて、類似文書抽出装置1は、切り出した複数の作業項目それぞれの分類ラベル(項目情報)と実施順序(順序情報)とを計算する。
次に、類似文書抽出装置1は、キー文書から計算された特徴量を、特徴量データベース22に格納されている特徴量と比較し、類似度の高い特徴量に対応する検索対象文書を類似類例として抽出する。
図4は、本実施形態に係る特徴量データベース22の作成処理を示すフローチャートである。
ステップS1において、制御部10(分割部11)は、文書構成データに基づいて、検索対象文書を作業項目の単位に分割する。
ステップS2において、制御部10(特徴量算出部12)は、ステップS1で分割された作業項目毎に、単語の出現頻度等の情報に基づいて作業種別を判定し、確度が最大の分類ラベル(項目情報)を付与する。
ステップS3において、制御部10(特徴量算出部12)は、ステップS2で付与した分類ラベル及び順序情報を、検索対象文書の特徴量として、特徴量データベース22に格納する。
図5は、本実施形態に係る類似文書抽出方法を示すフローチャートである。
ステップS11において、制御部10(入力部13)は、検索キーとなるキー文書の入力を受け付ける。
ステップS12において、制御部10(分割部11)は、ステップS11で受け付けたキー文書を、文書構成データに基づいて作業項目の単位に分割する。
ステップS13において、制御部10(特徴量算出部12)は、ステップS12で分割された作業項目毎に、単語の出現頻度等の情報に基づいて作業種別を判定し、確度が最大の分類ラベル(項目情報)を付与する。
ステップS14において、制御部10(類似度算出部14)は、ステップS13で付与した分類ラベル及び順序情報からなるキー文書の特徴量を、特徴量データベース22に格納されている特徴量と比較し、各検索対象文書との類似度を算出する。
ステップS15において、制御部10(抽出部15)は、ステップS14で算出された類似度の降順に、所定数の類似文書を過去の類似事例として抽出する。
本実施形態によれば、類似文書抽出装置1は、作業手順等が記載された文書について、作業項目毎に分割した上で、これらの作業項目の内容に加えて、実施順序を特徴量として算出する。類似文書抽出装置1は、この作業項目の順序相同性により、蓄積された検索対象文書の中から、キー文書の全部又は一部に順序も含めて類似する事例を、高い精度で抽出できる。
例えば、作業全体の内容が異なる、すなわち作業目的、実施部門、実施時期等が異なる作業について記載した文書についても、一部の作業手順が類似する場合に、これらを抽出することが可能となる。このとき、作業に関する類似性は、個々の作業項目のみならず、その順序性が重要であり、類似文書抽出装置1は、順序情報を含む特徴量により、精度の高い類似文書の抽出が可能である。
類似文書抽出装置1は、分類ラベル(項目情報)が連続して一致する数が多いほど類似度を高く設定することにより、順序相同性が高い文書を精度良く抽出できる。
類似文書抽出装置1は、検索対象文書の組み合わせに対して類似度を算出することにより、類似事例としてキー文書の内容を広く網羅する複数の文書を抽出でき、利便性が向上する。
類似文書抽出装置1は、分類ラベル(項目情報)の確度により類似度を調整するので、作業項目の種別が確かな文書を優先して、有用な類似事例を効率的に抽出できる。
また、類似文書抽出装置1は、複数の分類ラベルを選択でき、それぞれについて類似度を算出するので、作業項目の分類の誤りによる抽出漏れを抑制し、精度よく類似文書を抽出できる。
さらに、類似文書抽出装置1は、確度が最大の分類ラベルから変更した場合に、この作業項目を明示することにより、ユーザに対して作業項目の分類の誤りを示唆でき、利便性が向上する。
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
本実施形態では、検索対象文書の分類ラベルを変更しつつ類似度を算出する例を示したが、類似文書抽出装置1は、キー文書に対しても同様に複数の分類ラベルを選択し類似度を算出してもよい。
さらに、キー文書の作業項目に漏れがある可能性を考慮し、類似文書抽出装置1は、キー文書と一致する順序情報に対して短い(例えば1つの)作業項目が挿入されている検索対象文書を検出し、抽出してもよい。
例えば、図6のように、「1,2,3,5,6,7,8」という順序情報を持つキー文書に対して、「1,2,3,4,5,6,7,8」という順序情報を持つ検索対象文書が類似事例として抽出されてもよい。
この場合、キー文書にない分類ラベル「4」の作業項目が明示されることにより、ユーザに対して作業項目の記載漏れの可能性を示唆できる。
本実施形態では、類似文書抽出装置1の記憶部20が文書データベース21、特徴量データベース22及び文書構成データベース23を備える構成を説明したが、これらのデータベースは、外部に設けられてもよい。
また、本実施形態の検索対象文書は、作業に関する文書群には限られず、種々の分野の文書であってよい。類似文書抽出装置1は、項目の記載順序に特徴がある文書に対して類似度を算出し、キー文書に類似した文書を抽出できる。
類似文書抽出装置1による類似文書抽出方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
1 類似文書抽出装置
10 制御部
11 分割部
12 特徴量算出部
13 入力部
14 類似度算出部
15 抽出部
20 記憶部
21 文書データベース
22 特徴量データベース
23 文書構成データベース

Claims (8)

  1. 検索キーとなるキー文書の入力を受け付ける入力部と、
    文書構成情報に基づいて、文書を複数の項目に分割する分割部と、
    前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出部と、
    複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出部と、
    前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出部と、を備える類似文書抽出装置。
  2. 前記類似度算出部は、前記項目情報が連続して一致する数が多いほど、前記類似度を高く算出する請求項1に記載の類似文書抽出装置。
  3. 前記類似度算出部は、前記対象文書の組み合わせに対して、前記キー文書との前記類似度を算出し、
    前記抽出部は、前記類似度の降順に前記組み合わせを抽出する請求項1又は請求項2に記載の類似文書抽出装置。
  4. 前記特徴量算出部は、前記項目情報の確度を算出し、
    前記類似度算出部は、前記確度により前記類似度を調整する請求項1から請求項3のいずれかに記載の類似文書抽出装置。
  5. 前記特徴量算出部は、前記項目毎に複数の項目情報及び確度を算出し、
    前記類似度算出部は、前記項目情報を変更した場合の類似度をさらに算出する請求項4に記載の類似文書抽出装置。
  6. 前記抽出部は、前記複数の項目情報のうち、前記確度が最大の項目情報から変更した前記項目を示す出力を行う請求項5に記載の類似文書抽出装置。
  7. 検索キーとなるキー文書の入力を受け付ける入力ステップと、
    文書構成情報に基づいて、文書を複数の項目に分割する分割ステップと、
    前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出ステップと、
    複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出ステップと、
    前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出ステップと、をコンピュータが実行する類似文書抽出方法。
  8. 検索キーとなるキー文書の入力を受け付ける入力ステップと、
    文書構成情報に基づいて、文書を複数の項目に分割する分割ステップと、
    前記項目に含まれる単語に基づいて当該項目を分類した項目情報、及び当該項目の順序情報を含む特徴量を算出する特徴量算出ステップと、
    複数の対象文書それぞれの前記特徴量と前記キー文書の前記特徴量との類似度を算出する類似度算出ステップと、
    前記複数の対象文書から、前記類似度の降順に文書を抽出する抽出ステップと、をコンピュータに実行させるための類似文書抽出プログラム。
JP2016216404A 2016-11-04 2016-11-04 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム Active JP6722565B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016216404A JP6722565B2 (ja) 2016-11-04 2016-11-04 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016216404A JP6722565B2 (ja) 2016-11-04 2016-11-04 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム

Publications (2)

Publication Number Publication Date
JP2018073354A true JP2018073354A (ja) 2018-05-10
JP6722565B2 JP6722565B2 (ja) 2020-07-15

Family

ID=62115263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016216404A Active JP6722565B2 (ja) 2016-11-04 2016-11-04 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム

Country Status (1)

Country Link
JP (1) JP6722565B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042560A (ja) * 2018-09-11 2020-03-19 Kddi株式会社 情報抽出装置、情報抽出方法及び情報抽出プログラム
WO2022196058A1 (ja) * 2021-03-16 2022-09-22 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
JP7445891B2 (ja) 2020-06-12 2024-03-08 パナソニックIpマネジメント株式会社 文書分類方法、文書分類装置及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002222208A (ja) * 2001-06-19 2002-08-09 Hitachi Ltd 文書検索システム、文書検索方法及び検索サーバ
JP2002230021A (ja) * 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体
JP2009223409A (ja) * 2008-03-13 2009-10-01 Fuji Xerox Co Ltd 文書検索システムおよびプログラム
WO2014002212A1 (ja) * 2012-06-27 2014-01-03 株式会社日立製作所 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
JP2016126748A (ja) * 2014-12-26 2016-07-11 Kddi株式会社 ラベル付与装置、方法およびプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002230021A (ja) * 2001-01-30 2002-08-16 Canon Inc 情報検索装置及び情報検索方法並びに記憶媒体
JP2002222208A (ja) * 2001-06-19 2002-08-09 Hitachi Ltd 文書検索システム、文書検索方法及び検索サーバ
JP2009223409A (ja) * 2008-03-13 2009-10-01 Fuji Xerox Co Ltd 文書検索システムおよびプログラム
WO2014002212A1 (ja) * 2012-06-27 2014-01-03 株式会社日立製作所 文書関連付け方法および文書検索方法、文書関連付け装置および文書検索装置、並びにそのためのプログラム
JP2016126748A (ja) * 2014-12-26 2016-07-11 Kddi株式会社 ラベル付与装置、方法およびプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020042560A (ja) * 2018-09-11 2020-03-19 Kddi株式会社 情報抽出装置、情報抽出方法及び情報抽出プログラム
JP7445891B2 (ja) 2020-06-12 2024-03-08 パナソニックIpマネジメント株式会社 文書分類方法、文書分類装置及びプログラム
WO2022196058A1 (ja) * 2021-03-16 2022-09-22 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
JP6722565B2 (ja) 2020-07-15

Similar Documents

Publication Publication Date Title
US9898464B2 (en) Information extraction supporting apparatus and method
US9754176B2 (en) Method and system for data extraction from images of semi-structured documents
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
JP6007784B2 (ja) 文書分類装置及びプログラム
CN107004025B (zh) 图像检索装置及检索图像的方法
CN106033416A (zh) 一种字符串处理方法及装置
US20210349862A1 (en) Data analysis system and data analysis method
US20170262491A1 (en) Automatic content-based append detection
JP6722565B2 (ja) 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP2020191076A (ja) Apiドキュメンテーションからのapiエンドポイント記述の予測
CN114722137A (zh) 基于敏感数据识别的安全策略配置方法、装置及电子设备
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
JP2006099428A (ja) 文書要約作成システム、方法、及びプログラム
WO2008062822A1 (fr) Dispositif d'exploration de texte, procédé d'exploration de texte et programme d'exploration de texte
JP2016110256A (ja) 情報処理装置及び情報処理プログラム
JP5439235B2 (ja) 文書分類方法、文書分類装置、およびプログラム
JP2018037017A (ja) 分析装置、分析方法、および分析プログラム
Jain et al. Automatic question tagging using k-nearest neighbors and random forest
JP2021039488A (ja) 辞書作成装置及び辞書作成方法
US10528899B2 (en) Cladistics data analyzer for business data
US20180011919A1 (en) Systems and method for clustering electronic documents
Giannopoulos et al. Learning Advanced Similarities and Training Features for Toponym Interlinking
CN113010573A (zh) 一种关联关系提取方法、装置及电子设备
JP6664306B2 (ja) 類似文書抽出装置、類似文書抽出方法及び類似文書抽出プログラム
JP2017004218A (ja) 文書を処理する情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20191001

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200622

R150 Certificate of patent or registration of utility model

Ref document number: 6722565

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150