JP7330691B2 - 語彙抽出支援システムおよび語彙抽出支援方法 - Google Patents

語彙抽出支援システムおよび語彙抽出支援方法 Download PDF

Info

Publication number
JP7330691B2
JP7330691B2 JP2018232580A JP2018232580A JP7330691B2 JP 7330691 B2 JP7330691 B2 JP 7330691B2 JP 2018232580 A JP2018232580 A JP 2018232580A JP 2018232580 A JP2018232580 A JP 2018232580A JP 7330691 B2 JP7330691 B2 JP 7330691B2
Authority
JP
Japan
Prior art keywords
structured data
document
documents
vocabulary
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018232580A
Other languages
English (en)
Other versions
JP2020095452A (ja
Inventor
理 竹内
高明 春名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2018232580A priority Critical patent/JP7330691B2/ja
Priority to US16/711,008 priority patent/US11397853B2/en
Publication of JP2020095452A publication Critical patent/JP2020095452A/ja
Priority to JP2023129567A priority patent/JP7470235B2/ja
Application granted granted Critical
Publication of JP7330691B2 publication Critical patent/JP7330691B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、語彙抽出支援システムおよび語彙抽出支援方法に関するものである。
企業等における品質管理部門やカスタマーサービス部門では、製品やサービスにおける障害や故障などの発生に伴うユーザからの各種問い合わせ、或いは、設計部門からの製品コード改修時の改修リスク指摘などに対応し、所定の文書アーカイブから類似文書(障害報告者や設計書)を検索する。
そこで、こうした類似文書の検索を容易にするため、検索キーワードの類義語/関連語を当該ユーザに提示し、適宜なものを選択させ、検索の効率・精度を向上させる種々の技術が存在する。
このような技術に関連したものとしては、例えば、非学習データ集合から機械学習用データを生成する機械学習用データ生成システムであって、評価の付与された機械学習用データを初期データとして保持する初期データ保持手段と、前記初期データから学習データを生成する学習データ生成手段と、評価の付与されていない非学習データを保持する非学習データ保持手段と、学習データを用いて機械学習を行なう機械学習手段と、前記機械学習手段による学習結果を基に非学習データの評価予測を行ない、さらに予測された評価の確信度を出力する評価手段と、評価の確信度が所定の条件を満たす非学習データを初期データ保持手段に追加する初期データ更新手段と、を具備することを特徴とする機械学習用データ生成システム(特許文献1参照)などが提案されている。
特開2005-92253号公報
一方、上述のごとく類義語や関連語を提示するためには、所定の文書アーカイブ内の文書から類義語/関連語の抽出を予め行う必要がある。
そした処理に関する基本技術としては、例えば、文書アーカイブの文書における形態素解析結果を予め定めた所定辞書(語彙間の関係性を規定した構造化データ)や名寄せ用情報(synonym辞書)に適用し、語彙間の関係性を特定するもの(例えば、図22参照)が提案されている(参考:“Incremental knowledge base construction using DeepDive”,The VLDB Journal 2017,Volume26,pp.81-105)。
上述の技術によれば、或る文書(Input)に含まれる語彙1と語彙2のセット(構造化データ候補:candidate)に関して、その間に存在する語彙(Words in between)とその距離(distance)といった特徴量(feature)を抽出し、これらを過去の知見である機械学習データ(Knowledge DB)に照合して正否(label)を判定し、当該語彙セットの関係性の存在確率(probability)をシステムが推定する
また、この推定結果の正誤については、類義語/関連語抽出に関するドメインエキスパートが判定し、この判定結果に応じた根拠データの要求がデータサイエンティストになされる。
データサイエンティストは、該当データを特定して上述のドメインエキスパートに提供するとともに、上述の存在確率推定で誤りが生じた原因を検討し、対策案を策定する。またこれに伴い、類義語/関連語の抽出アルゴリズムの改変と、文書アーカイブへの教師文書データの追加等を行うこととなる。
こうした、ドメインエキスパートによる正誤判定、ドメインエキスパートおよびデータサイエンティストによる作業(根拠データの要求と提示、原因検討と対策案策定)、データサイエンティストによる抽出アルゴリズムの改変、教師文書データの追加、は類義語/関連語の抽出精度向上に必要な処理ではあるが、工数増大の大きな要因ともなっている。
そこで本発明の目的は、類義語/関連語を良好な効率および精度で抽出する技術を提供することにある。
上記課題を解決する本発明の語彙抽出支援システムは、処理対象の文書アーカイブ、および語彙間の関係性を規定した辞書を保持する記憶装置と、前記文書アーカイブが含む文書を、前記辞書に照合して所定語彙間の関係性に関する構造化データ候補を生成するに際し、ユーザ指定の語彙セットを含む複数の文書を前記文書アーカイブから抽出し、当該複数の文書それぞれについて異なるモデルで前記構造化データ候補を生成し、前記構造化データ候補の確からしさに応じて当該構造化データ候補の正当性判定を行うに際し、前記構造化データ候補のうち確からしさが所定レベル以下のものについて、当該構造化データ候補の生成主体とは異なるモデルに紐付いた前記正当性判定を行い、当該構造化データ候補の正否を確定させ、前記正当性判定の結果に基づき当該構造化データ候補を前記辞書に追加する演算装置と、を含むものである。
また、本発明の語彙抽出支援方法は、処理対象の文書アーカイブ、および語彙間の関係性を規定した辞書を保持する記憶装置を備えた情報処理システムが、前記文書アーカイブが含む文書を、前記辞書に照合して所定語彙間の関係性に関する構造化データ候補を生成するに際し、ユーザ指定の語彙セットを含む複数の文書を前記文書アーカイブから抽出し、当該複数の文書それぞれについて異なるモデルで前記構造化データ候補を生成し、前記構造化データ候補の確からしさに応じて当該構造化データ候補の正当性判定を行うに際し、前記構造化データ候補のうち確からしさが所定レベル以下のものについて、当該構造化データ候補の生成主体とは異なるモデルに紐付いた前記正当性判定を行い、当該構造化データ候補の正否を確定させ、前記正当性判定の結果に基づき当該構造化データ候補を前記辞書に追加する処理、を実行するものである。
本発明によれば、類義語/関連語を良好な効率および精度で抽出可能となる。
本実施形態の語彙抽出支援システムの構成例を示す図である。 本実施形態の管理サーバの構成例を示す図である。 本実施形態の構造化データ生成サーバの構成例を示す図である。 本実施形態の抽出relation情報の構成例を示す図である。 本実施形態のhidden relation候補の構成例を示す図である。 本実施形態の文書識別ルールの構成例を示す図である。 本実施形態における語彙抽出支援方法のフロー例1を示す図である。 本実施形態における語彙抽出支援方法のフロー例2を示す図である。 本実施形態における語彙抽出支援方法のフロー例3を示す図である。 本実施形態の形態素解析結果の例を示す図である。 本実施形態のhidden relation候補の例を示す図である。 本実施形態における語彙抽出支援方法のフロー例4を示す図である。 本実施形態における語彙抽出支援方法のフロー例5を示す図である。 本実施形態の重み情報の例を示す図である。 本実施形態における語彙抽出処理概念の例1を示す図である。 本実施形態における語彙抽出処理概念の例2を示す図である。 本実施形態における語彙抽出支援方法のフロー例6を示す図である。 本実施形態における語彙抽出支援方法のフロー例7を示す図である。 本実施形態における出力例1を示す図である。 本実施形態における出力例2を示す図である。 本実施形態における出力例3を示す図である。 本実施形態における語彙抽出支援方法のフロー例8を示す図である。 語彙抽出の基本技術を示す図である。
---システム構成---
以下に本発明の実施形態について図面を用いて詳細に説明する。図1は、本実施形態の語彙抽出支援システム100の構成例を示す図である。図1に示す語彙抽出支援システム100は、類義語/関連語を良好な効率および精度で抽出するコンピュータシステムである。
ここで例示する語彙抽出支援システム100は、管理サーバ100および複数の構造化データ生成サーバ150により構成されている。なお、図1では、説明の簡便化のため構造化データ生成サーバ150を2つのみ例示したが、2つ以上であれば特に限定はしない。
このうち管理サーバ100は、例えば、語彙抽出処理業務を担う事業者ないし担当部署が運営するサーバ装置であり、語彙抽出処理の対象となる多数の文書を含む文書アーカイブ116、および、構造化データである抽出relation情報117を保持している。
また、管理サーバ100は、文書種別識別部110、およびhidden relation抽出精度評価部111を機能として有する。
このうち文書種別識別部110は、文書アーカイブ116が含む各文書を、例えば、ドメインエキスパートが規定した文書識別ルール1101(詳細後述)に基づいて分類して、複数の文書セット160を生成し、これを構造化データ生成サーバ150に配信するものである。
ここで配信される文書セット160は、例えば、ドメインエキスパートが指定した属性1175(例:装置名-処理名)を備える語彙が含まれる文書となる。
また、hidden relation抽出精度評価部111は、構造化データ生成サーバ150のhidden relation正当性自動判別部113による処理結果を受けて、該当する構造化データ候補を抽出relation情報117の辞書すなわち装置名-処理名辞書1171に追加するものとなる。
一方、構造化データ生成サーバ150は、hidden relation抽出部112、およびhidden relation正当性自動判別部113を備える。
このうちhidden relation抽出部112は、管理サーバ100の文書種別識別部110から配信された文書セット160に関して形態素解析を行って語彙群を抽出し、当該語彙群を抽出relation情報117の装置名-処理名辞書1171やsynonym辞書1172と照合して、hidden relation候補161すなわち構造化データ候補(以下、hidden relation候補)を生成するものである。
なお、このhidden relation抽出部112は、ラベリング部1121、候補&特徴量抽出部1122、および学習・推論部1123から構成される。
上述のラベリング部1121は、文書セット160に対する形態素解析を実行して語彙
群を抽出し、この語彙群に抽出relation情報117の装置名-処理名辞書1171、synonym辞書1172を照合することで、当該文書セット160に含まれる各語彙にラベルを付与するものである。
例えば、鉄道システムに関する障害報告書が文書セット160として文書種別識別部110から配信された場合、当該文書セット160に関して形態素解析で得た各語彙を、上述の辞書1171、1172に照合して、障害発生対象の装置名、処理名、日時、表示名、といった属性の値がラベルとして特定できる。勿論、こうした形態はあくまでも一例であり、文書アーカイブ116に保持する文書の種類により、様々なものを適宜に想定できる。
また、候補&特徴量抽出部1122は、上述のラベリング部1121により得ている各語彙とその属性値に対し、ユーザ指定の属性(抽出relation情報117が含む属性1175。例えば、装置名-処理名のセット)に合致する語彙セットを構造化データ候補として抽出し、また、この語彙セットに関して所定のアルゴリズムで特徴量抽出を行うものである。
特徴量抽出のアルゴリズムについては、既に述べた基本技術におけるものと同様である。例えば、ある語彙1と語彙2との間に存在するキーワード、および当該キーワードと語彙1、2との距離、といったものが特徴量として想定できるが、特徴量の種類としては勿論これに限定しない。
また、学習・推論部1123は、上述の候補&特徴量抽出部1122での一連の処理経緯を踏まえ、文書セット160における各語彙セットが示す特徴量から、当該語彙セットすなわち構造化データ候補の正当性に関するラベルが推論できるモデルを学習し、hidden
relation候補161の関係存在確率を算出するものである。こうした学習・推論部1123の機能自体は上述の基本技術におけるものと同様である。
また、hidden relation正当性自動判別部113は、上述のhidden relation抽出部112により生成したhidden relation候補161の正当性を、その関係存在確率(確からしさ)が所定レベル以下のものについて、正当性を他の構造化データ生成サーバ150に問い合わせて確定させるものである。
---ハードウェア構成---
また、語彙抽出支援システム10における管理サーバ100のハードウェア構成は図2に示す如くとなる。すなわち管理サーバ100は、記憶装置101、メモリ103、演算装置104、入力装置105、出力装置106、および通信装置107、を備える。
このうち記憶装置101は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ103は、RAMなど揮発性記憶素子で構成される。
また、演算装置104は、記憶装置101に保持されるプログラム102をメモリ103に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
また、入力装置105は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、或いはマイクである。
また、出力装置106は、演算装置104での処理データの表示を行うディスプレイ、スピーカー等である。
また、通信装置107は、適宜なネットワークと接続して構造化データ生成サーバ150との通信処理を担うネットワークインターフェイスカードである。
なお、記憶装置101内には、本実施形態の語彙抽出支援システム10を構成する管理サーバ100として必要な機能を実装する為のプログラム102に加えて、文書アーカイブ116および抽出relation情報117が少なくとも記憶されている。
また、構造化データ生成サーバ150のハードウェア構成例を図3に示す。本実施形態の構造化データ生成サーバ150は、記憶装置151、メモリ153、演算装置154、入力装置155、出力装置156、および通信装置157、を備える。
このうち記憶装置151は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ153は、RAMなど揮発性記憶素子で構成される。
また、演算装置154は、記憶装置151に保持されるプログラム152をメモリ153に読み出すなどして実行し装置自体の統括制御を行なうとともに各種判定、演算及び制御処理を行なうCPUである。
また、入力装置155は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、或いはマイクである。
また、出力装置156は、演算装置154での処理データの表示を行うディスプレイ、スピーカー等である。
また、通信装置157は、適宜なネットワークと接続して、上述の管理サーバ100や他の構造化データ生成サーバ150との通信処理を担うネットワークインターフェイスカードである。
なお、記憶装置151内には、本実施形態の語彙抽出支援システム10を構成する構造化データ生成サーバとして必要な機能を実装する為のプログラム152に加えて、文書セット160およびhidden relation候補161が少なくとも記憶されている。
---データ構造例---
続いて、本実施形態の語彙抽出支援システム10における管理サーバ100、構造化データ生成サーバ150らが用いる情報について説明する。
図4に、本実施形態における抽出relation情報117の一例を示す。抽出relation情報117は、例えば、ドメインエキスパートから指示を受けた抽出対象の語彙セットすなわち抽出hidden relation種別(例:装置名-処理名)1174、装置名-処理名辞書1171、hidden relation抽出可能サーバ情報1173、およびsynonym辞書1172といったデータの集合体である。
このうち、装置名-処理名辞書1171は、抽出hidden relation種別で指定されたキーワード1「装置名」の辞書、キーワード2「処理名」の辞書、および、それらキーワード1、2の各語彙の組み合わせの存在確率の成否を規定したrelation辞書、を含むものを想定している。
図4にて装置名-処理名辞書1171を例示したのは、抽出hidden relation種別1174として「装置名-処理名」が指定されており、これに対応する辞書を明示する意図で提示している。従って、抽出hidden relation種別1174として別の語彙セットが指定された場合、これに対応する辞書を用いることになる。
また、relation辞書は、該当語彙の組み合わせが、高確率で存在しうる場合「t」(True)、高確率で存在しない場合「f」(false)、の値がセットされている。
また、hidden relation抽出可能サーバ情報1173は、構造化データ生成サーバ150それぞれのIPアドレスなどの情報がセットされている。
また、synonym辞書1172は、上述の装置名-処理名辞書1171に含まれる語彙の同義語/類義語を規定した辞書であり、対象語彙とそのsynonym(同義語/類義語)とを対としたレコードの集合体である。図4の例では装置名とそのsynonym、処理名とそのsynonym、のそれぞれについて規定した形態を例示している。
続いて、図5に、本実施形態におけるhidden relation候補161の例を示す。このhidden relation候補161は、hidden relation抽出部112が生成した構造化データ候補であり、語彙セットとその関係存在確率の各値が紐付いたデータとなっている。
図5の例では、一方の語彙であるキーワード1(例:昨日)と他方の語彙であるキーワード2(例:TID)とのセットに関して、その関係存在確率が0~1の範囲の値として示されている。この関係存在確率が「1」であれば、当該構造化データ候補を構成する語彙セットは高確率で関係性を有し、「0」であれば、当該構造化データ候補を構成する語彙セットは高確率で関係性を有しない(換言すれば、殆ど関係性が無い)、ことを意味する。一方、「0.02」など、「0」から「1」の間の値は、該当語彙セットに曖昧な関係性があることを示す。
続いて、図6に本実施形態における文書識別ルール1101の例を示す。この文書識別ルール1101は、文書識別部110が備える情報であり、文書アーカイブ116における各文書のうち、例えば、ドメインエキスパートが指定する属性のものを抽出するためのルールとなる。
図6の例では、該当文章における表記場所およびその場所に記載のキーワード、の組みとして上述の属性が規定されており、表記場所として、「表紙ページ先頭」、「ヘッダ部」、「先頭100文字以内」、といった値が規定され、該当場所に記載されているべき「キーワード」として「機能仕様書」、「障害報告書」、「題目:[障害報告]」、といった値が規定されている。
文書識別部110は、この文書識別ルール1101を、文書アーカイブ116の各文書に適用し、当該ルールが適合する複数の文書を抽出することとなる。
---フロー例(文書アーカイブからの文書セットの抽出・配信)---
以下、本実施形態における語彙抽出支援方法の実際手順について図に基づき説明する。以下で説明する語彙抽出支援方法に対応する各種動作は、語彙抽出支援システム10を構成する管理サーバ100や構造化データ生成サーバ150らが、そのメモリ等に読み出して実行するプログラムによって実現される。そして、このプログラムは、以下に説明される各種の動作を行うためのコードから構成されている。
図7は、本実施形態における語彙抽出支援方法のフロー例1を示す図である。ここではまず、構造化データ生成サーバ150のhidden relation抽出部112におけるフローについて説明する。
この場合、hidden relation抽出部112は、文書アーカイブ116から文書を読み込む(s10)。また、hidden relation抽出部112は、文書識別ルール1101にマッチする文書を検索する(s11)。この文書識別ルール1101は、図4にて既に述べたとおりである。
続いて、hidden relation抽出部112は、上述のs11での検索結果に基づき、文書識別ルール1101に適合する文書群を文書セット160として複数特定し、好ましくは
、当該文書セット160の属性(例:ファイルタイプやデータ形式など)が互いに異なるよう、当該文書セット160の配信先となる構造化データ生成サーバ150を決定する(s12)。
また、hidden relation抽出部112は、上述のs12で決定した構造化データ生成サーバ150それぞれに、対応する文書セット160を配信し(s13)、処理を終了する。
一方、上述の例とは異なる形で文書セット160の配信先を決定する形態も想定できる。図8に、本実施形態における語彙抽出支援方法のフロー例2を示す。
この場合、構造化データ生成サーバ150のhidden relation抽出部112は、文書アーカイブ116の各文書について形態素解析を実行し、この形態素解析の結果と抽出relation情報117における装置名-処理名辞書1171およびsynonym辞書1172に基づき、hidden relation候補を抽出する(s15)。
また、hidden relation抽出部112は、s15で得たhidden relation候補それぞれについて、上述の形態素解析結果および装置名-処理名辞書1171、synonym辞書1172に基づき関係存在確率を計算し、これに基づき、各文書においてhidden relation候補の抽出の可否、すなわち抽出のしやすさ(確率)を特定する(s16)。
例えば、ある文書における、hidden relation候補すなわち語彙セットの出現率と、そのhidden relation候補の関係存在確率とからなるベクトル値といったものを想定できる。
続いて、hidden relation抽出部112は、s16で得たベクトル値に基づいて、各文書のクラスタリングを実行して、当該クラスタリング後の文書セット160の配信先、すなわち構造化データ生成サーバ150を決定する(s17)。
上述のクラスタリングは、上述のベクトル値が構造化データ生成サーバ150ごとに異なるよう文書を分類し文書セット160を構成する処理となる。
また、hidden relation抽出部112は、s17で決定した構造化データ生成サーバ150に、対応する文書セット160を配信し(s18)、処理を終了する。
---フロー例(hiddenrelation抽出、hiddenrelation正当性自動判別)---
続いて、hiddenrelation抽出、およびhiddenrelation正当性自動判別の各処理について説明する。図9に、本実施形態における語彙抽出支援方法のフロー例3を示す。
この場合、hidden relation抽出部112は、抽出relation情報117を参照し、抽出すべき語彙セットとして抽出hidden relation種別の値、および装置名-処理名辞書1171、synonym辞書1172をそれぞれ取得する(s20)。
また、hidden relation抽出部112は、管理サーバ100の文書識別部110から配信を受けた文書セット160の各文書に対して形態素解析を実行する(s21)。
この形態素解析の結果例を図10に示す。図10で示す形態素解析結果900では、文書セット160に含まれる各文書のIDおよび当該文書に含まれる文書のIDをキーに、当該文書に関して得たWORDとLEMMA、および品詞が対応付けされた構成となっている。
続いて、hidden relation抽出部112は、上述のs21で得た形態素解析結果900
、およびs20で得た装置名-処理名辞書1171およびsynonym辞書1172に基づき、hidden relation候補161を算出する(s22)。
また、hidden relation抽出部112は、上述のs22で得たhidden relation候補161に関して、上述の形態素解析結果900および装置名-処理名辞書1171、synonym辞書1172に基づき特徴量を計算する(s23)。
こうして特徴量を得たhiddenrelation候補161の具体例を図11に示す。図11で例示するhidden relation候補161では、「装置名-処理名」の語彙セットそれぞれについて、その特徴量、ラベル、関係存在確率の各値が規定された形態となっている。
このうち特徴量における、「WORD_IN_BETWEEN」は、キーワード1とキーワード2との間に存在する語彙(記号含む)を示している。
また、「KW1_in_dict」、「KW2_in_dict」は、キーワード1、キーワード2が装置名-処理名辞書1171に含まれるか否かを、「f」:含まれない、「t」:含まれる、で示している。
またラベルは、s24で付与されるもので、例えば、装置名-処理名辞書1171およびsynonym辞書1172に基づき、当該hidden relation候補161の語彙セットが同義語/類義語の範疇も含め、装置名-処理名辞書1171に規定されているか否かにより判定・付与される。全く規定されていない場合、「f」、規定されている場合に「t」、一方のキーワードのみ規定されているなど不確かな場合に「nil」となる。或いは、関係存在確率の値に応じて定めるとしてもよく、関係存在確率の値が「0」の場合に「f」、「1」の場合に「t」、「0」から「1」の間の値の場合に「nil」などとも規定できる。
続いて、hidden relation抽出部112は、上述のhidden relation候補161における語彙セットを装置名-処理名辞書1171およびsynonym辞書1172に照合し、当該語彙セットが同義語/類義語の範疇も含め、装置名-処理名辞書1171に規定されているか否かにより、ラベルを判定・付与する(s24)。
また、hidden relation抽出部112は、hiddenrelation候補161の特徴量からラベルを推論できるモデルを所定の機械学習アルゴリズムにて学習し、hidden relation候補161ごとの関係存在確率を算出する(s25)。こうしたラベル付与や関係存在確率の各値の算定等については上述の基本技術を適宜に採用すればよい。
一方、上述の構造化データ生成サーバ150における、hidden relation正当性自動判別部113は、抽出relation情報117を参照し、hidden relation抽出可能サーバ情報を取得する(s30)。
また、hidden relation正当性自動判別部113は、自らのhidden relation抽出部112(図11のフローの実行主体)で抽出したhidden relation候補ごとの関係存在確率の値を、s30で情報を取得した各サーバすなわち他の構造化データ生成サーバ150から取得する(s31)。
続いて、hidden relation正当性自動判別部113は、s31で得た、hidden relation候補ごとの関係存在確率の値を所定の閾値(例:0.6)と比較し、当該閾値以上または閾値以下の関係存在確率が存在するか判定する(s32)。
上述の判定の結果、閾値以上または以下の関係存在確率の値が存在しなかった場合(s
32:N)、hidden relation正当性自動判別部113は、処理を終了する。
一方、上述の判定の結果、閾値以上または以下の関係存在確率の値が存在している場合(s32:Y)、hidden relation正当性自動判別部113は、当該hidden relation候補に関してrelation辞書エントリを生成し、管理サーバ100のhidden relation抽出精度評価部111に送信し(s33)、処理を終了する。この場合、hidden relation抽出精度評価部111は、当該relation辞書エントリを抽出relation情報117に格納する。
なお、hidden relation抽出精度評価部111は、各構造化データ生成サーバ150において保持するモデル情報(図9のs25で得ているもので、hidden relation抽出部112において機械学習により生成済みのモデル情報)を収集する(s35)。このモデル情報の例を、図14における重み情報1300として示した。
続いて、hidden relation抽出精度評価部111は、抽出relation情報117におけるrelation辞書から例えば所定項目の一部情報を削除し、各構造化データ生成サーバ150上のhidden relation抽出部112にて当該情報をどの程度の確率で抽出可能であるかテストさせる(s36)。
また、hidden relation抽出精度評価部111は、s35で得たモデル情報およびs36におけるテスト結果を、hidden relation抽出精度情報として、記憶装置101の所定領域に記録する(s37)。
続いて、hidden relation抽出精度評価部111は、上述のテスト結果に改善が見られれば、s33によりhidden relation正当性自動判別部113から受信した辞書エントリ情報を、抽出relation情報117における装置名-処理名辞書1171に登録する(s38)。
また、hidden relation抽出精度評価部111は、s37で記録されたモデル情報及びテスト結果を参照する(s39)。
続いて、hidden relation抽出精度評価部111は、ユーザ指定された時点のモデル情報への更新要求をhidden relation抽出部112に通知する(s40)。
この場合、hidden relation抽出部112は、要求されたモデル情報に強制更新し(s41)、処理を終了する。
---フロー例(特徴量および文書のフィルタリング)---
続いて、図15にて示すように、正当性判定によるhidden relation候補すなわち構造化データ候補の正否である、誤検出または正当検出に関し寄与した特徴量および文書を所定アルゴリズムで分析し、当該分析結果をもとに低品質と評価された特徴量および文書のフィルタリングを実行する例について説明する。
図15は、本実施形態における語彙抽出処理概念の例1を示す図であり、図16は、本実施形態における語彙抽出処理概念の例2を示す図である。
この場合、hidden relation抽出部112における候補&特徴量抽出部1122は、hidden relation候補作成に際し、候補&特徴量抽出テンプレート11221のうち、例えば、ドメインエキスパートから指示を受けたテンプレート番号1600に対応する関数ポインタを、関数ポインタテーブル1601にて特定し、この関数ポインタに応じて候補&特徴量抽出プログラム1602を呼び出して実行することとなる。この場合、候補&特徴量抽出プログラム1602は、候補&特徴量抽出部1122の実体となる。
こうした構成のため、候補&特徴量抽出部1122は、上述の関数ポインタテーブル1
601と、当該関数ポインタテーブル1601で記述する関数ポインタに対応した候補&特徴量抽出プログラム1602を、記憶装置151にて保持して適宜に参照・呼び出し可能であるとする。
続いて図17~図21にて、本実施形態における語彙抽出支援方法のフロー例6~8を示す。
この場合、hidden relation抽出部112は、抽出relation情報117を参照し、抽出すべき語彙セットとして抽出hidden relation種別の値、および装置名-処理名辞書1171、synonym辞書1172をそれぞれ取得する(s50)。
また、hidden relation抽出部112は、管理サーバ100の文書識別部110から配信を受けた文書セット160の各文書に対して形態素解析を実行する(s51)。この形態素解析の結果例は、図10に示したとおりである。
続いて、hidden relation抽出部112は、上述のs51で得た形態素解析結果900、およびs50で得た装置名-処理名辞書1171およびsynonym辞書1172を引数に、ユーザ指定の指定テンプレート番号1600の候補&特徴量抽出プログラム1602を関数ポインタテーブル1601から呼び出して実行する(s52)。これにより、図9のフローと同様、hidden relation候補161が算出できる。
また、hidden relation抽出部112は、上述のs52で得たhidden relation候補161に関して、上述の形態素解析結果900および装置名-処理名辞書1171、synonym辞書1172に基づき特徴量を計算する(s53)。
続いて、hidden relation抽出部112は、上述のhidden relation候補161における語彙セットを装置名-処理名辞書1171およびsynonym辞書1172に照合し、当該語彙セットが同義語/類義語の範疇も含め、装置名-処理名辞書1171に規定されているか否かにより、ラベルを判定・付与する(s54)。
また、hidden relation抽出部112は、hiddenrelation候補161の特徴量からラベルを推論できるモデルを所定の機械学習アルゴリズムにて学習し、hidden relation候補161ごとの関係存在確率を算出する(s55)。
一方、上述の構造化データ生成サーバ150における、hidden relation正当性自動判別部113は、抽出relation情報117を参照し、hidden relation抽出可能サーバ情報を取得する(s55)。
また、hidden relation正当性自動判別部113は、自らのhidden relation抽出部112(図17のフローの実行主体)で抽出したhidden relation候補ごとの関係存在確率の値を、s55で情報を取得した各サーバすなわち他の構造化データ生成サーバ150から取得する(s56)。
続いて、hidden relation正当性自動判別部113は、s56で得た、hidden relation候補ごとの関係存在確率に関して集約し、自hidden relation抽出部112で抽出したhidden relation候補を、False POSITIVE候補セット、False NEGATIVE候補セット、正解候補セット、に分類し(s57)、これらの情報を管理サーバ100の推論寄与特徴量&文書判別部114に提供する。
なお、上述のFalse POSITIVE候補セットは、いわゆる検出漏れとなったもので、本来なら該当語彙の組み合わせは高確率で存在しうる「t」(True)であるところ、高確率で存
在しない「f」(false)と判定してしまったものが含まれている。
また、False NEGATIVE候補セットは、いわゆる誤検出となったもので、本来なら該当語彙の組み合わせは高確率で存在しない「f」(false)であるところ、高確率で存在する「t」(truee)と判定してしまったものが含まれている。
続いて、推論寄与特徴量&文書判別部114は、上述のFalse POSITIVE 候補セットで、当該候補をPOSITIVE に判定する要因となった主要な特徴量及び元の文書の「No Good」カウンタをインクリメントする(s58)。このカウンタの値は、例えば記憶装置151に保持するものとする(以下同様)。
また、推論寄与特徴量&文書判別部114は、上述のFalse NEGATIVE候補セットで、当該候補をNAGATIVEに判定する要因となった主要な特徴量及び元の文書の「No Good」カウンタをインクリメントする(s59)。
また、推論寄与特徴量&文書判別部114は、上述の正解候補セットで、当該候補を正しく判定する要因となった主要な特徴量及び元の文書の「Good」カウンタをインクリメントする(s60)。
なお、上述のように判定要因を特定する技術としては、機械学習アルゴリズムにおける、いわゆる逆解析手法を適宜に採用すればよい。
また、推論寄与特徴量&文書判別部114は、上述のs58~s60で更新した、特徴量や文書に関するカウンタの値、すなわち集計結果(図19A、図19B参照)を、出力装置106にて表示する(s61)。図19Aには、文書に関するGood/NGの各カウンタの値の表示例を示し、図19Bには、特徴量に関するGood/NGの各カウンタの値の表示例を示している。
上述の表示例が出力された画面上で、例えば、「NG」の文書または特徴量のオブジェクトに対するクリック動作がなされた場合、推論寄与特徴量&文書判別部114は、図20のように詳細情報画面2200を出力装置106に表示させる。
この画面は、該当文書の表示欄2201、当該文書すなわちhidden relation候補の関係存在確率の表示欄2202、および該当特徴量とその重み付けすなわちモデル情報の表示欄2203、から構成されている。いずれの表示欄の情報も、推論寄与特徴量&文書判別部114が、それまでの処理でメモリ等で保持している情報に基づくものとなる。
続いて、管理サーバ100の低品質文書&特徴量除去部115は、図21のフローにて示すように、上述の集計結果に関して、「No Good」カウンタが「Good」カウンタよりも所定閾値以上となっている特徴量および文書を抽出する(s65)。
また、低品質文書&特徴量除去部115は、s65で抽出した文書を、文書アーカイブ116から削除する(s66)。
続いて、低品質文書&特徴量除去部115は、s65で抽出した特徴量を、各構造化データ生成サーバ150上のhidden relation抽出部112に通知する(s67)。
一方、各構造化データ生成サーバ150のhidden relation抽出部112は、以後の機械学習時において、s67の通知で受信した特徴量に関して無視して処理を行う(s68)。
以上、本発明を実施するための最良の形態などについて具体的に説明したが、本発明は
これに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、類義語/関連語を良好な効率および精度で抽出可能となる。
本明細書の記載により、少なくとも次のことが明らかにされる。すなわち、本発明の語彙抽出支援システムにおいて、 前記演算装置は、前記構造化データ候補を生成するに際し、ユーザ指定の語彙セットを含む複数の文書を前記文書アーカイブから抽出し、当該複数の文書それぞれについて異なるアルゴリズムで前記構造化データ候補を生成し、当該構造化データ候補のうち確からしさが所定レベル以下のものについて、当該構造化データ候補の生成主体とは異なるアルゴリズムに紐付いた前記正当性判定を行い、当該構造化データ候補の正否を確定させるものである、としてもよい。
これによれば、抽出対象とする特徴量の種類が異なるアルゴリズムごとに、文書から構造化データ候補を生成し、その正当性に疑義があるものついて、他のアルゴリズムでの正当性判定を経ることで、精度良く正否を確定可能となる。ひいては、類義語/関連語をより良好な効率および精度で抽出可能となる。
また、本実施形態の語彙抽出支援システムにおいて、前記演算装置は、前記複数の文書を前記文書アーカイブから抽出するに際し、前記語彙セットを含む文書のうち、ユーザ指定の文書属性に適合する文書を抽出するものである、としてもよい。
これによれば、文書アーカイブ内の文書を、例えばドメインエキスパートの知見に基づく分類基準(すなわち文書属性に関する規定)で適宜に分類し、これを構造化データ候補の生成処理対象とすることができる。ひいては、類義語/関連語をより良好な効率および精度で抽出可能となる。
また、本実施形態の語彙抽出支援システムにおいて、前記演算装置は、前記文書アーカイブが含む全文書それぞれについて、前記構造化データ候補を生成して、当該構造化データ候補の群を前記確からしさが異なるよう分類し、当該分類の結果に応じて、前記構造化データ候補に対応する文書を、前記異なるアルゴリズムの処理対象とするものである、としてもよい。
これによれば、文書アーカイブ内の文書を特徴が異なるよう予め分類した上で、上述の構造化データ候補の生成処理対象のリソースとすることができる。ひいては、類義語/関連語をより良好な効率および精度で抽出可能となる。
また、本実施形態の語彙抽出支援システムにおいて、前記演算装置は、前記正当性判定による前記構造化データ候補の正否である、誤検出または正当検出に関し寄与した特徴量および文書を所定アルゴリズムで分析し、当該分析結果をもとに低品質と評価された特徴量および文書のフィルタリングを実行するものである、としてもよい。
これによれば、文書アーカイブ内の文書すなわち教師文書データの質向上や構造化データ候補の正当性の改善が図られることとなり、ひいては、類義語/関連語をより良好な効率および精度で抽出可能となる。
また、本実施形態の語彙抽出支援方法において、前記情報処理システムが、前記構造化データ候補を生成するに際し、ユーザ指定の語彙セットを含む複数の文書を前記文書アーカイブから抽出し、当該複数の文書それぞれについて異なるアルゴリズムで前記構造化データ候補を生成し、当該構造化データ候補のうち確からしさが所定レベル以下のものについて、当該構造化データ候補の生成主体とは異なるアルゴリズムに紐付いた前記正当性判
定を行い、当該構造化データ候補の正否を確定させる、としてもよい。
また、本実施形態の語彙抽出支援方法において、前記情報処理システムが、前記複数の文書を前記文書アーカイブから抽出するに際し、前記語彙セットを含む文書のうち、ユーザ指定の文書属性に適合する文書を抽出する、としてもよい。
また、本実施形態の語彙抽出支援方法において、前記情報処理システムが、前記文書アーカイブが含む全文書それぞれについて、前記構造化データ候補を生成して、当該構造化データ候補の群を前記確からしさが異なるよう分類し、当該分類の結果に応じて、前記構造化データ候補に対応する文書を、前記異なるアルゴリズムの処理対象とする、としてもよい。
また、本実施形態の語彙抽出支援方法において、前記情報処理システムが、前記正当性判定による前記構造化データ候補の正否である、誤検出または正当検出に関し寄与した特徴量および文書を所定アルゴリズムで分析し、当該分析結果をもとに低品質と評価された特徴量および文書のフィルタリングを実行する、としてもよい。
10 語彙抽出支援システム
100 管理サーバ
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 入力装置
106 出力装置
107 通信装置
110 文書識別部
1101 文書識別ルール
111 hidden relation抽出精度評価部
114 推論寄与特徴量&文書判別部
115 低品質文書&特徴量除去部
116 文書アーカイブ
117 抽出relation情報(辞書)
1171 装置名-処理名辞書
1172 synonym辞書
1173 抽出可能サーバ情報
150 構造化データ生成サーバ
151 記憶装置
152 プログラム
153 メモリ
154 演算装置
155 入力装置
156 出力装置
157 通信装置
112 hidden relation抽出部
1121 ラベリング部
1122 候補&特徴量抽出部
11221 候補&特徴量抽出テンプレート
1123 学習・推論部
113 hidden relation正当性自動判別部
160 文書セット
161 hidden relation候補(構造化データ候補)

Claims (8)

  1. 処理対象の文書アーカイブ、および語彙間の関係性を規定した辞書を保持する記憶装置と、
    前記文書アーカイブが含む文書を、前記辞書に照合して所定語彙間の関係性に関する構造化データ候補を生成するに際し、ユーザ指定の語彙セットを含む複数の文書を前記文書アーカイブから抽出し、当該複数の文書それぞれについて異なるモデルで前記構造化データ候補を生成し、前記構造化データ候補の確からしさに応じて当該構造化データ候補の正当性判定を行うに際し、前記構造化データ候補のうち確からしさが所定レベル以下のものについて、当該構造化データ候補の生成主体とは異なるモデルに紐付いた前記正当性判定を行い、当該構造化データ候補の正否を確定させ、前記正当性判定の結果に基づき当該構造化データ候補を前記辞書に追加する演算装置と、
    を含む語彙抽出支援システム。
  2. 前記演算装置は、
    前記複数の文書を前記文書アーカイブから抽出するに際し、前記語彙セットを含む文書のうち、ユーザ指定の文書属性に適合する文書を抽出するものである、
    ことを特徴とする請求項1に記載の語彙抽出支援システム。
  3. 前記演算装置は、
    前記文書アーカイブが含む全文書それぞれについて、前記構造化データ候補を生成して、当該構造化データ候補の群を前記確からしさが異なるよう分類し、当該分類の結果に応じて、前記構造化データ候補に対応する文書を、前記異なるモデルの処理対象とするものである、
    ことを特徴とする請求項1に記載の語彙抽出支援システム。
  4. 前記演算装置は、
    前記正当性判定による前記構造化データ候補の正否である、誤検出または正当検出に関し寄与した特徴量および文書を所定アルゴリズムで分析し、当該分析の結果をもとに低品質と評価された特徴量および文書のフィルタリングを実行するものである、
    ことを特徴とする請求項1に記載の語彙抽出支援システム。
  5. 処理対象の文書アーカイブ、および語彙間の関係性を規定した辞書を保持する記憶装置を備えた情報処理システムが、
    前記文書アーカイブが含む文書を、前記辞書に照合して所定語彙間の関係性に関する構造化データ候補を生成するに際し、ユーザ指定の語彙セットを含む複数の文書を前記文書アーカイブから抽出し、当該複数の文書それぞれについて異なるモデルで前記構造化データ候補を生成し、前記構造化データ候補の確からしさに応じて当該構造化データ候補の正当性判定を行うに際し、前記構造化データ候補のうち確からしさが所定レベル以下のものについて、当該構造化データ候補の生成主体とは異なるモデルに紐付いた前記正当性判定を行い、当該構造化データ候補の正否を確定させ、前記正当性判定の結果に基づき当該構造化データ候補を前記辞書に追加する処理、
    を実行する語彙抽出支援方法。
  6. 前記情報処理システムが、
    前記複数の文書を前記文書アーカイブから抽出するに際し、前記語彙セットを含む文書のうち、ユーザ指定の文書属性に適合する文書を抽出する、
    ことを特徴とする請求項5に記載の語彙抽出支援方法
  7. 前記情報処理システムが、
    前記文書アーカイブが含む全文書それぞれについて、前記構造化データ候補を生成して、当該構造化データ候補の群を前記確からしさが異なるよう分類し、当該分類の結果に応じて、前記構造化データ候補に対応する文書を、前記異なるモデルの処理対象とする、
    ことを特徴とする請求項5に記載の語彙抽出支援方法
  8. 前記情報処理システムが、
    前記正当性判定による前記構造化データ候補の正否である、誤検出または正当検出に関し寄与した特徴量および文書を所定アルゴリズムで分析し、当該分析の結果をもとに低品質と評価された特徴量および文書のフィルタリングを実行する、
    ことを特徴とする請求項5に記載の語彙抽出支援方法
JP2018232580A 2018-12-12 2018-12-12 語彙抽出支援システムおよび語彙抽出支援方法 Active JP7330691B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018232580A JP7330691B2 (ja) 2018-12-12 2018-12-12 語彙抽出支援システムおよび語彙抽出支援方法
US16/711,008 US11397853B2 (en) 2018-12-12 2019-12-11 Word extraction assistance system and word extraction assistance method
JP2023129567A JP7470235B2 (ja) 2018-12-12 2023-08-08 語彙抽出支援システムおよび語彙抽出支援方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018232580A JP7330691B2 (ja) 2018-12-12 2018-12-12 語彙抽出支援システムおよび語彙抽出支援方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023129567A Division JP7470235B2 (ja) 2018-12-12 2023-08-08 語彙抽出支援システムおよび語彙抽出支援方法

Publications (2)

Publication Number Publication Date
JP2020095452A JP2020095452A (ja) 2020-06-18
JP7330691B2 true JP7330691B2 (ja) 2023-08-22

Family

ID=71071647

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018232580A Active JP7330691B2 (ja) 2018-12-12 2018-12-12 語彙抽出支援システムおよび語彙抽出支援方法
JP2023129567A Active JP7470235B2 (ja) 2018-12-12 2023-08-08 語彙抽出支援システムおよび語彙抽出支援方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023129567A Active JP7470235B2 (ja) 2018-12-12 2023-08-08 語彙抽出支援システムおよび語彙抽出支援方法

Country Status (2)

Country Link
US (1) US11397853B2 (ja)
JP (2) JP7330691B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022144778A (ja) 2021-03-19 2022-10-03 株式会社日立製作所 候補アイディアを生成するシステム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217128A1 (en) 2015-01-27 2016-07-28 Verint Systems Ltd. Ontology expansion using entity-association rules and abstract relations

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4571404B2 (ja) * 2001-07-26 2010-10-27 インターナショナル・ビジネス・マシーンズ・コーポレーション データ処理方法、データ処理システムおよびプログラム
JP2005092253A (ja) 2003-09-11 2005-04-07 Fuji Xerox Co Ltd 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム
US8504908B2 (en) * 2007-10-17 2013-08-06 ITI Scotland, Limited Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document
JP2011118689A (ja) 2009-12-03 2011-06-16 Univ Of Tokyo 検索方法及びシステム
US9436663B2 (en) * 2012-12-17 2016-09-06 Hewlett Packard Enterprise Development Lp Presenting documents to a user based on topics and collective opinions expressed in the documents
JP6847812B2 (ja) 2017-10-25 2021-03-24 株式会社東芝 文書理解支援装置、文書理解支援方法、およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160217128A1 (en) 2015-01-27 2016-07-28 Verint Systems Ltd. Ontology expansion using entity-association rules and abstract relations

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHIN, Jaeho et al.,Incremental Knowledge Base Construction Using DeepDive,Cornell University,2015年06月15日,pp.1-19,[検索日 2022.04.04], Internet<URL: https://arxiv.org/abs/1502.00731 >

Also Published As

Publication number Publication date
JP7470235B2 (ja) 2024-04-17
US11397853B2 (en) 2022-07-26
JP2023145767A (ja) 2023-10-11
JP2020095452A (ja) 2020-06-18
US20200193090A1 (en) 2020-06-18

Similar Documents

Publication Publication Date Title
AU2019261735B2 (en) System and method for recommending automation solutions for technology infrastructure issues
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
WO2016179938A1 (zh) 题目推荐方法和题目推荐装置
US20230289665A1 (en) Failure feedback system for enhancing machine learning accuracy by synthetic data generation
US8719192B2 (en) Transfer of learning for query classification
CA3052527C (en) Target document template generation
US8108413B2 (en) Method and apparatus for automatically discovering features in free form heterogeneous data
US8453027B2 (en) Similarity detection for error reports
US11972216B2 (en) Autonomous detection of compound issue requests in an issue tracking system
US20230351330A1 (en) Autonomous suggestion of issue request content in an issue tracking system
US20220027748A1 (en) Systems and methods for document similarity matching
JP7470235B2 (ja) 語彙抽出支援システムおよび語彙抽出支援方法
CN115422372A (zh) 一种基于软件测试的知识图谱构建方法和系统
US11604923B2 (en) High volume message classification and distribution
US20230244987A1 (en) Accelerated data labeling with automated data profiling for training machine learning predictive models
JP2001325104A (ja) 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体
CN109299381A (zh) 一种基于语义概念的软件缺陷检索和分析系统及方法
CN109344254A (zh) 一种地址信息分类方法及装置
Alexander Automated Trouble Report Labeling: In The Telecom Industry
US20220284284A1 (en) Music Release Disambiguation using Multi-Modal Neural Networks
US20240111736A1 (en) Semantic classification for data management
US20230037894A1 (en) Automated learning based executable chatbot
US20230214679A1 (en) Extracting and classifying entities from digital content items
Sangeetha et al. Fake News Detection System Using Multinomial Naïve Bayes Classifier
Khatun et al. Analysis of Duplicate Bug Report Detection Techniques

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210415

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230314

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230413

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230711

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230809

R150 Certificate of patent or registration of utility model

Ref document number: 7330691

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150