JP6764262B2 - 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム - Google Patents

索引情報生成装置、索引情報生成方法及び索引情報生成プログラム Download PDF

Info

Publication number
JP6764262B2
JP6764262B2 JP2016116381A JP2016116381A JP6764262B2 JP 6764262 B2 JP6764262 B2 JP 6764262B2 JP 2016116381 A JP2016116381 A JP 2016116381A JP 2016116381 A JP2016116381 A JP 2016116381A JP 6764262 B2 JP6764262 B2 JP 6764262B2
Authority
JP
Japan
Prior art keywords
character string
index
index information
character
combination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016116381A
Other languages
English (en)
Other versions
JP2017220161A (ja
Inventor
和孝 鳥本
和孝 鳥本
泰章 奥村
泰章 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Heavy Industries Ltd
Original Assignee
Mitsubishi Heavy Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Heavy Industries Ltd filed Critical Mitsubishi Heavy Industries Ltd
Priority to JP2016116381A priority Critical patent/JP6764262B2/ja
Publication of JP2017220161A publication Critical patent/JP2017220161A/ja
Application granted granted Critical
Publication of JP6764262B2 publication Critical patent/JP6764262B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書から文字列を抽出して索引情報を生成する索引情報生成装置、索引情報生成方法及び索引情報生成プログラムに関するものである。
従来、形態素解析済みの文書から、デイリーワードを抽出するデイリーワード抽出装置が知られている(例えば、特許文献1参照)。このデイリーワード抽出装置は、固有表現抽出部を備え、固有表現抽出部は、形態素解析済みの文書について、固有表現、時間表現を抽出している。
特開2014−119977号公報
ここで、文書が、例えば、日本語を主体とする文書である場合、形態素解析は、文書に含まれる文字を、形態素解析が有する辞書に基づいて、品詞毎に分解して抽出することが一般的である。このとき、形態素解析が有する辞書に含まれていない未知の文字列は、文字種の変わり目で分解される。このため、アルファベット、数字及び記号が連続する未知の文字列が文書に含まれている場合、形態素解析を行うと、アルファベットの文字列と、数字の文字列と、記号の文字列と、にそれぞれ分解されて抽出される。そして、索引情報を生成する場合には、抽出された文字列を索引文字列(キーワード)とし、検索文字列をデータベース化して、索引情報(インデックス情報)が生成されることとなる。
ここで、検索したい文字列として、アルファベット、数字及び記号の少なくとも2つの文字種を組み合わせた組合せ文字列がある。この場合、一般的な形態素解析を適用すると、組み合わせ文字列は文字種の分かれ目で別の単語として認識されるため、組合せ文字列が含まれない索引情報が生成されてしまう。この場合、索引情報に基づいて、組合せ文字列を検索することが困難となってしまう。
そこで、本発明は、形態素解析を活用しつつ、アルファベット、数字及び記号の少なくとも2つの文字種を組み合わせた文字列を、索引情報として適切に生成することができる索引情報生成装置、索引情報生成方法及び索引情報生成プログラムを提供することを課題とする。
本発明の索引情報生成装置は、文書から文字列を抽出して索引情報を生成する索引情報生成装置において、前記文書は、アルファベット、数字及び記号の少なくとも2つの文字種が組み合わされた組合せ文字列と、前記組合せ文字列に含まれる文字種とは異なる文字種を含む文字列と、を含んでおり、前記文書の形態素解析を行って要素文字列を抽出すると共に、前記アルファベット、前記数字及び前記記号の少なくとも2つの文字種の前記要素文字列が連続する文字列を、前記組合せ文字列として抽出し、前記組合せ文字列を索引文字列として設定し、前記索引文字列に基づいて索引情報を生成する処理部を備えることを特徴とする。
また、本発明の索引情報生成方法は、文書から文字列を抽出して索引情報を生成する索引情報生成方法において、前記文書は、アルファベット、数字及び記号の少なくとも2つの文字種を組み合わせた組合せ文字列と、前記組合せ文字列に含まれる文字種とは異なる文字種を含む文字列と、を含んでおり、前記文書の形態素解析を行って要素文字列を抽出する形態素解析工程と、前記アルファベット、前記数字及び前記記号の少なくとも2つの文字種の前記要素文字列が連続する文字列を、前記組合せ文字列として設定する組合せ文字列設定工程と、前記組合せ文字列設定工程により設定した前記組合せ文字列を、索引文字列として設定する索引文字列設定工程と、前記索引文字列に基づいて索引情報を生成する索引情報生成工程と、を備えることを特徴とする。
また、本発明の索引情報生成プログラムは、アルファベット、数字及び記号の少なくとも2つの文字種を組み合わせた組合せ文字列と、前記組合せ文字列に含まれる文字種とは異なる文字種を含む文字列と、を含む文書から、文字列を抽出して索引情報を生成する索引情報生成装置に、前記文書の形態素解析を行って要素文字列を抽出する形態素解析工程と、前記アルファベット、前記数字及び前記記号の少なくとも2つの文字種の前記要素文字列が連続する文字列を、前記組合せ文字列として設定する組合せ文字列設定工程と、前記組合せ文字列設定工程により設定した前記組合せ文字列を、索引文字列として設定する索引文字列設定工程と、前記索引文字列に基づいて索引情報を生成する索引情報生成工程と、を実行させることを特徴とする。
これらの構成によれば、形態素解析により抽出した、アルファベット、数字及び記号の少なくとも2つの文字種の要素文字列が連続する文字列を、組合せ文字列として設定し、これを索引文字列として設定することができる。このため、形態素解析を活用した簡便な処理で、組合せ文字列を、索引情報として適切に生成することができる。これにより、索引情報を用いた組合せ文字列の検索を適切に行うことができる。
また、前記処理部は、抽出した前記組合せ文字列を含む文字列のうち、出現頻度の高い順から前記索引文字列として設定することが好ましい。
この構成によれば、出現頻度の高い文字列を索引文字列として設定することができるため、検索される可能性が高い索引文字列を索引情報に含めて生成することができる。
また、前記文書は、技術文書であり、前記組合せ文字列は、前記技術文書に含まれる部品番号または製造番号であることが好ましい。
この構成によれば、技術文書に含まれる部品番号または製造番号を索引文字列として、索引情報に含めて生成することができる。このため、部品番号や製造番号の検索を適切に行うことができる。なお、部品番号は、部品の名称を示す番号であり、製造番号(シリアルナンバー)は、製造場所や製造日付、製品の個体を識別するための番号である。
また、前記索引情報は、前記文書を要約した要約文字列をさらに含み、前記処理部は、前記索引文字列の中から、前記要約文字列を生成するための要約用索引文字列を選定し、文書要約アルゴリズムに基づいて、選定した前記要約用索引文字列と前記文書に含まれる文字列とから、前記要約文字列を生成することが好ましい。
この構成によれば、索引文字列の他、要約文字列を含めて索引情報を生成することができる。また、大量の文書から部品番号や製造番号を確実に抽出しつつ、要約情報を大幅に圧縮できる。
図1は、本実施形態に係る索引情報生成装置の制御ブロックを示す説明図である。 図2は、索引情報に関する説明図である。 図3は、本実施形態に係る索引情報生成方法に関する制御動作の一例を示すフローチャートである。 図4は、索引情報生成方法に関する説明図である。
以下に、本発明に係る実施形態を図面に基づいて詳細に説明する。なお、この実施形態によりこの発明が限定されるものではない。また、下記実施形態における構成要素には、当業者が置換可能かつ容易なもの、あるいは実質的に同一のものが含まれる。さらに、以下に記載した構成要素は適宜組み合わせることが可能であり、また、実施形態が複数ある場合には、各実施形態を組み合わせることも可能である。
[実施形態]
図1は、本実施形態に係る索引情報生成装置の制御ブロックを示す説明図である。図2は、索引情報に関する説明図である。図3は、本実施形態に係る索引情報生成方法に関する制御動作の一例を示すフローチャートである。図4は、索引情報生成方法に関する説明図である。
本実施形態に係る索引情報生成装置10は、文書から文字列を抽出して索引情報35を生成する装置となっている。文書としては、例えば、日本語を主体とする技術文書30であり、技術文書30には、アルファベット、数字及び記号を組み合わせた部品番号または製造番号等の組合せ文字列32が含まれている。つまり、この索引情報生成装置10では、技術文書30に含まれる組合せ文字列32を検索するための索引情報35を生成している。
具体的に、技術文書30は、アルファベット、数字及び記号の少なくとも2つの文字種が組み合わされた組合せ文字列32と、組合せ文字列32に含まれる文字種とは異なる文字種を含む文字列と、を含んでいる。組合せ文字列32は、少なくとも2つの文字種が組み合わされていればよく、例えば、「AB34567」、「34567−123」及び「AB34567−123」等がある。なお、組合せ文字列32は、文字種の並びの順序については、特に限定されない。組合せ文字列32に含まれる文字種とは異なる文字種を含む文字列とは、例えば、ひらがな、カタカナ、漢字等の文字種を含む文字列である。
なお、本実施形態において、文書は、日本語を主体とした技術文書30としたが、これに特に限定されず、組合せ文字列32と、組合せ文字列32に含まれる文字種とは異なる文字種を含む文字列とを含む文書であれば、いずれであってもよい。文書としては、例えば、アルファベット以外の文字を主体とした言語(例えば、中国語または韓国語等)で構成されるものであってもよい。
図1に示すように、索引情報生成装置10は、記憶部14と、処理部15とを含んで構成されている。
記憶部14は、磁気記憶装置や半導体記憶装置等の不揮発性を有する記憶装置であり、記憶部14に記憶されるデータとしては、索引情報35を生成する索引情報生成プログラム21が含まれている。また、記憶部14には、索引情報35の生成時に用いられる技術文書30、また、索引情報生成プログラム21によって生成された索引情報35等が適宜記憶される。
処理部15は、CPU(Central Processing Unit)等の集積回路と、作業領域となるメモリとを含み、これらのハードウェア資源を用いて、記憶部14に記憶された索引情報生成プログラム21を実行することで、技術文書30から索引情報35を生成する処理を実行する。
次に、図2を参照して、生成される索引情報35について説明する。索引情報35は、複数の索引文字列33と、要約文字列34とを含んで構成されている。複数の索引文字列33は、例えば、名詞、固有名詞、動詞を中心とした文字列である。また、索引文字列33では、組合せ文字列32を固有名詞として設定している。なお、複数の索引文字列33は、後述する索引文字列設定工程S3において設定される文字列となっている。要約文字列34は、技術文書30を要約した文字列となっており、マルコフ連鎖等の文書要約アルゴリズムに基づいて生成される文字列となっている。なお、要約文字列34は、後述する要約文字列生成工程S4において設定される文字列となっている。
次に、図3及び図4を参照して、上記の索引情報生成装置10による索引情報生成方法に関する一連の制御動作について説明する。索引情報生成装置10の処理部15は、索引情報生成プログラム21を実行することで、索引情報生成方法に関する制御動作を行う。
図3に示すように、先ず、索引情報生成装置10の処理部15は、技術文書30に対して形態素解析を行って、技術文書30に含まれる文字列を、品詞毎に分解して複数の要素文字列31を抽出する(ステップS1:形態素解析工程)。つまり、要素文字列31は、品詞毎の文字列となっている。例えば、図4に示すように、技術文書30に含まれる文字列が「部品番号はAB34567−123・・・」である場合、処理部15は、形態素解析工程S1を実行することで、「部品」、「番号」、「は」、「AB」、「34567」、「−」、「123」・・・となる複数の要素文字列31に分解する。そして、形態素解析工程S1では、複数の要素文字列31の中から、索引文字列33となり得る、例えば、名詞、固有名詞、動詞を中心とした「部品」及び「番号」等の要素文字列31を抽出する。なお、形態素解析工程S1を行う前に、単語の種類を減らすべく、技術文書30から得られた文字列を、後述するルールに基づいて変換している。ルールとしては、例えば、文字列に含まれる半角カタカナを全角カタカナに変換したり、文字列に含まれる全角英数字を半角英数字に変換したり、文字列に含まれる全角スペースを半角スペースに変換したりする。
続いて、処理部15は、分解した複数の要素文字列31の中から、アルファベット、数字及び記号の少なくとも2つの文字種の要素文字列31が連続する文字列を、組合せ文字列32として設定する(ステップS2:組合せ文字列設定工程)。例えば、図4に示すように、処理部15は、アルファベット、数字及び記号が連続する「AB」、「34567」、「−」、「123」の文字列を、「AB34567−123」の組合せ文字列32とし、この組合せ文字列32を固有名詞として設定する。
次に、処理部15は、形態素解析工程S1において抽出した、名詞、固有名詞、動詞を中心とした文字列と、組合せ文字列設定工程S2において設定した、固有名詞となる組合せ文字列32とを含む文字列の中から、索引文字列33を設定する(ステップS3:索引文字列設定工程)。索引文字列設定工程S3では、抽出した組合せ文字列32を含む文字列のうち、出現頻度の高い順(例えば、上位の200〜300個)から、索引文字列33として設定している。例えば、図4に示すように、処理部15は、形態素解析工程S1において抽出した要素文字列31の中から「部品」を索引文字列33として設定し、また、組合せ文字列設定工程S2で設定した「AB34567−123」を索引文字列33として設定する。
この後、処理部15は、索引文字列設定工程S3において設定した索引文字列33の中から、要約文字列34を生成するための要約用索引文字列を選定し、マルコフ連鎖等の文書要約アルゴリズムに基づいて、選定した要約用索引文字列から要約文字列を生成する(ステップS4:要約文字列生成工程)。具体的に、要約文字列生成工程S4では、索引文字列33のうち、出現頻度の高い順(例えば、上位の5個)から、要約用索引文字列を選定している。そして、要約文字列生成工程S4では、マルコフ連鎖等の文書要約アルゴリズムに基づき、選定された要約用索引文字列をキーワードとして、技術文書30に含まれる要素文字列31をランダムに組み合わせて、要約文字列34が、技術文書30の文字数よりも少ない文字数(例えば、1500字)程度となるように生成する。
そして、処理部15は、索引文字列設定工程S3において設定した索引文字列33と、要約文字列生成工程S4において生成した要約文字列34とに基づいて、図2及び図4に示す索引情報35を生成し(ステップS5:索引情報生成工程)、一連の制御動作を終了する。
以上のように、本実施形態によれば、形態素解析により抽出した、アルファベット、数字及び記号の少なくとも2つの文字種の要素文字列31が連続する文字列を、組合せ文字列32として設定し、これを索引文字列33として設定することができる。このため、形態素解析を活用した簡便な処理で、組合せ文字列32を、索引情報35として適切に生成することができる。これにより、索引情報35を用いた組合せ文字列32の検索を適切に行うことができる。特に、簡便な処理で組合せ文字列32を含む索引情報35を生成できることから、索引情報35を生成するためのリソースが限られる場合であっても、索引情報35を適切に生成することができる。
また、本実施形態によれば、出現頻度の高い文字列を索引文字列33として設定することができるため、検索される可能性が高い索引文字列33を索引情報35に含めて生成することができる。
また、本実施形態によれば、技術文書30に含まれる部品番号または製造番号を索引文字列33として、索引情報35に含めて生成することができる。このため、部品番号や製造番号の検索を適切に行うことができる。
また、本実施形態によれば、索引文字列33の他、要約文字列34を含めて索引情報35を生成することができる。
10 索引情報生成装置
14 記憶部
15 処理部
21 索引情報生成プログラム
30 技術文書
31 要素文字列
32 組合せ文字列
33 索引文字列
34 要約文字列
35 索引情報

Claims (6)

  1. 文書から文字列を抽出して索引情報を生成する索引情報生成装置において、
    前記文書は、
    アルファベット、数字及び記号の少なくとも2つの文字種が組み合わされた組合せ文字列と、
    前記組合せ文字列に含まれる文字種とは異なる文字種を含む文字列と、を含んでおり、
    前記文書の形態素解析を行って品詞毎の文字列である要素文字列を抽出すると共に、前記アルファベット、前記数字及び前記記号の少なくとも2つの文字種の前記要素文字列が連続する文字列を、前記組合せ文字列として抽出し、前記組合せ文字列を索引文字列として設定し、前記索引文字列に基づいて索引情報を生成する処理部を備えることを特徴とする索引情報生成装置。
  2. 前記処理部は、抽出した前記組合せ文字列を含む文字列のうち、出現頻度の高い順から前記索引文字列として設定することを特徴とする請求項1に記載の索引情報生成装置。
  3. 前記文書は、技術文書であり、
    前記組合せ文字列は、前記技術文書に含まれる部品番号または製造番号であることを特徴とする請求項1または2に記載の索引情報生成装置。
  4. 前記索引情報は、前記文書を要約した要約文字列をさらに含み、
    前記処理部は、前記索引文字列の中から、前記要約文字列を生成するための要約用索引文字列を選定し、文書要約アルゴリズムに基づいて、選定した前記要約用索引文字列と前記文書に含まれる文字列とから、前記要約文字列を生成することを特徴とする請求項1から3のいずれか1項に記載の索引情報生成装置。
  5. 文書から文字列を抽出して索引情報を生成する索引情報生成方法において、
    前記文書は、
    アルファベット、数字及び記号の少なくとも2つの文字種を組み合わせた組合せ文字列と、
    前記組合せ文字列に含まれる文字種とは異なる文字種を含む文字列と、を含んでおり、
    前記文書の形態素解析を行って品詞毎の文字列である要素文字列を抽出する形態素解析工程と、
    前記アルファベット、前記数字及び前記記号の少なくとも2つの文字種の前記要素文字列が連続する文字列を、前記組合せ文字列として設定する組合せ文字列設定工程と、
    前記組合せ文字列設定工程により設定した前記組合せ文字列を、索引文字列として設定する索引文字列設定工程と、
    前記索引文字列に基づいて索引情報を生成する索引情報生成工程と、を備えることを特徴とする索引情報生成方法。
  6. アルファベット、数字及び記号の少なくとも2つの文字種を組み合わせた組合せ文字列と、前記組合せ文字列に含まれる文字種とは異なる文字種を含む文字列と、を含む文書から、文字列を抽出して索引情報を生成する索引情報生成装置に、
    前記文書の形態素解析を行って品詞毎の文字列である要素文字列を抽出する形態素解析工程と、
    前記アルファベット、前記数字及び前記記号の少なくとも2つの文字種の前記要素文字列が連続する文字列を、前記組合せ文字列として設定する組合せ文字列設定工程と、
    前記組合せ文字列設定工程により設定した前記組合せ文字列を、索引文字列として設定する索引文字列設定工程と、
    前記索引文字列に基づいて索引情報を生成する索引情報生成工程と、を実行させることを特徴とする索引情報生成プログラム。
JP2016116381A 2016-06-10 2016-06-10 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム Active JP6764262B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016116381A JP6764262B2 (ja) 2016-06-10 2016-06-10 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016116381A JP6764262B2 (ja) 2016-06-10 2016-06-10 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム

Publications (2)

Publication Number Publication Date
JP2017220161A JP2017220161A (ja) 2017-12-14
JP6764262B2 true JP6764262B2 (ja) 2020-09-30

Family

ID=60657680

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016116381A Active JP6764262B2 (ja) 2016-06-10 2016-06-10 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム

Country Status (1)

Country Link
JP (1) JP6764262B2 (ja)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5161658B2 (ja) * 2008-05-30 2013-03-13 株式会社東芝 キーワード入力支援装置、キーワード入力支援方法及びプログラム
JP4774081B2 (ja) * 2008-06-11 2011-09-14 ヤフー株式会社 文書検索システム、文書検索方法、及びプログラム

Also Published As

Publication number Publication date
JP2017220161A (ja) 2017-12-14

Similar Documents

Publication Publication Date Title
Khan et al. A light weight stemmer for Urdu language: a scarce resourced language
CN101308512B (zh) 一种基于网页的互译翻译对抽取方法及装置
CN107153469B (zh) 为输入数据搜索匹配候选项的方法、数据库创建方法、装置及计算机程序产品
JP4502114B2 (ja) データベース検索装置
TWI452475B (zh) A dictionary generating device, a dictionary generating method, a dictionary generating program product, and a computer readable memory medium storing the program
JP6067952B1 (ja) 翻字処理装置、翻字処理方法、翻字処理プログラム、及び情報処理装置
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
Khan et al. Challenges in developing a rule based urdu stemmer
Salifou et al. Design of a spell corrector for Hausa language
JP6764262B2 (ja) 索引情報生成装置、索引情報生成方法及び索引情報生成プログラム
CN110413972A (zh) 一种基于nlp技术的表名字段名智能补全方法
Yahya et al. Arabic text categorization based on Arabic Wikipedia
Lehal Design and implementation of Punjabi spell checker
Lee et al. Syllable-based Malay word stemmer
Al-Khatib et al. A New Enhanced Arabic Light Stemmer for IR in Medical Documents.
Alsaad et al. Arabic text root extraction via morphological analysis and linguistic constraints
US20210073258A1 (en) Information processing apparatus and non-transitory computer readable medium
Thalji et al. A novel rule-based root extraction algorithm for Arabic language
Al-Serhan et al. A triliteral word roots extraction using neural network for Arabic
Thalji et al. Corpus for test, compare and enhance Arabic root extraction algorithms
Witmer et al. Extracting geospatial entities from wikipedia
QasemiZadeh et al. Adaptive language independent spell checking using intelligent traverse on a tree
JP2003331214A (ja) 文字認識誤り訂正方法、装置及びプログラム
Lovinger et al. Scrubbing the web for association rules: An application in predictive text
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190322

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200121

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200316

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200825

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200911

R150 Certificate of patent or registration of utility model

Ref document number: 6764262

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150