JP7330691B2 - 語彙抽出支援システムおよび語彙抽出支援方法 - Google Patents
語彙抽出支援システムおよび語彙抽出支援方法 Download PDFInfo
- Publication number
- JP7330691B2 JP7330691B2 JP2018232580A JP2018232580A JP7330691B2 JP 7330691 B2 JP7330691 B2 JP 7330691B2 JP 2018232580 A JP2018232580 A JP 2018232580A JP 2018232580 A JP2018232580 A JP 2018232580A JP 7330691 B2 JP7330691 B2 JP 7330691B2
- Authority
- JP
- Japan
- Prior art keywords
- structured data
- document
- documents
- vocabulary
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
そこで本発明の目的は、類義語/関連語を良好な効率および精度で抽出する技術を提供することにある。
また、管理サーバ100は、文書種別識別部110、およびhidden relation抽出精度評価部111を機能として有する。
ここで配信される文書セット160は、例えば、ドメインエキスパートが指定した属性1175(例:装置名-処理名)を備える語彙が含まれる文書となる。
群を抽出し、この語彙群に抽出relation情報117の装置名-処理名辞書1171、synonym辞書1172を照合することで、当該文書セット160に含まれる各語彙にラベルを付与するものである。
relation候補161の関係存在確率を算出するものである。こうした学習・推論部1123の機能自体は上述の基本技術におけるものと同様である。
---ハードウェア構成---
このうち記憶装置101は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ103は、RAMなど揮発性記憶素子で構成される。
また、入力装置105は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、或いはマイクである。
また、出力装置106は、演算装置104での処理データの表示を行うディスプレイ、スピーカー等である。
また、通信装置107は、適宜なネットワークと接続して構造化データ生成サーバ150との通信処理を担うネットワークインターフェイスカードである。
このうち記憶装置151は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ153は、RAMなど揮発性記憶素子で構成される。
また、入力装置155は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、或いはマイクである。
また、出力装置156は、演算装置154での処理データの表示を行うディスプレイ、スピーカー等である。
---データ構造例---
続いて、本実施形態の語彙抽出支援システム10における管理サーバ100、構造化データ生成サーバ150らが用いる情報について説明する。
図6の例では、該当文章における表記場所およびその場所に記載のキーワード、の組みとして上述の属性が規定されており、表記場所として、「表紙ページ先頭」、「ヘッダ部」、「先頭100文字以内」、といった値が規定され、該当場所に記載されているべき「キーワード」として「機能仕様書」、「障害報告書」、「題目:[障害報告]」、といった値が規定されている。
文書識別部110は、この文書識別ルール1101を、文書アーカイブ116の各文書に適用し、当該ルールが適合する複数の文書を抽出することとなる。
---フロー例(文書アーカイブからの文書セットの抽出・配信)---
、当該文書セット160の属性(例:ファイルタイプやデータ形式など)が互いに異なるよう、当該文書セット160の配信先となる構造化データ生成サーバ150を決定する(s12)。
一方、上述の例とは異なる形で文書セット160の配信先を決定する形態も想定できる。図8に、本実施形態における語彙抽出支援方法のフロー例2を示す。
上述のクラスタリングは、上述のベクトル値が構造化データ生成サーバ150ごとに異なるよう文書を分類し文書セット160を構成する処理となる。
---フロー例(hiddenrelation抽出、hiddenrelation正当性自動判別)---
、およびs20で得た装置名-処理名辞書1171およびsynonym辞書1172に基づき、hidden relation候補161を算出する(s22)。
このうち特徴量における、「WORD_IN_BETWEEN」は、キーワード1とキーワード2との間に存在する語彙(記号含む)を示している。
32:N)、hidden relation正当性自動判別部113は、処理を終了する。
また、hidden relation抽出精度評価部111は、s37で記録されたモデル情報及びテスト結果を参照する(s39)。
この場合、hidden relation抽出部112は、要求されたモデル情報に強制更新し(s41)、処理を終了する。
---フロー例(特徴量および文書のフィルタリング)---
図15は、本実施形態における語彙抽出処理概念の例1を示す図であり、図16は、本実施形態における語彙抽出処理概念の例2を示す図である。
601と、当該関数ポインタテーブル1601で記述する関数ポインタに対応した候補&特徴量抽出プログラム1602を、記憶装置151にて保持して適宜に参照・呼び出し可能であるとする。
続いて図17~図21にて、本実施形態における語彙抽出支援方法のフロー例6~8を示す。
在しない「f」(false)と判定してしまったものが含まれている。
なお、上述のように判定要因を特定する技術としては、機械学習アルゴリズムにおける、いわゆる逆解析手法を適宜に採用すればよい。
また、低品質文書&特徴量除去部115は、s65で抽出した文書を、文書アーカイブ116から削除する(s66)。
これに限定されるものではなく、その要旨を逸脱しない範囲で種々変更可能である。
こうした本実施形態によれば、類義語/関連語を良好な効率および精度で抽出可能となる。
定を行い、当該構造化データ候補の正否を確定させる、としてもよい。
100 管理サーバ
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 入力装置
106 出力装置
107 通信装置
110 文書識別部
1101 文書識別ルール
111 hidden relation抽出精度評価部
114 推論寄与特徴量&文書判別部
115 低品質文書&特徴量除去部
116 文書アーカイブ
117 抽出relation情報(辞書)
1171 装置名-処理名辞書
1172 synonym辞書
1173 抽出可能サーバ情報
150 構造化データ生成サーバ
151 記憶装置
152 プログラム
153 メモリ
154 演算装置
155 入力装置
156 出力装置
157 通信装置
112 hidden relation抽出部
1121 ラベリング部
1122 候補&特徴量抽出部
11221 候補&特徴量抽出テンプレート
1123 学習・推論部
113 hidden relation正当性自動判別部
160 文書セット
161 hidden relation候補(構造化データ候補)
Claims (8)
- 処理対象の文書アーカイブ、および語彙間の関係性を規定した辞書を保持する記憶装置と、
前記文書アーカイブが含む文書を、前記辞書に照合して所定語彙間の関係性に関する構造化データ候補を生成するに際し、ユーザ指定の語彙セットを含む複数の文書を前記文書アーカイブから抽出し、当該複数の文書それぞれについて異なるモデルで前記構造化データ候補を生成し、前記構造化データ候補の確からしさに応じて当該構造化データ候補の正当性判定を行うに際し、前記構造化データ候補のうち確からしさが所定レベル以下のものについて、当該構造化データ候補の生成主体とは異なるモデルに紐付いた前記正当性判定を行い、当該構造化データ候補の正否を確定させ、前記正当性判定の結果に基づき当該構造化データ候補を前記辞書に追加する演算装置と、
を含む語彙抽出支援システム。 - 前記演算装置は、
前記複数の文書を前記文書アーカイブから抽出するに際し、前記語彙セットを含む文書のうち、ユーザ指定の文書属性に適合する文書を抽出するものである、
ことを特徴とする請求項1に記載の語彙抽出支援システム。 - 前記演算装置は、
前記文書アーカイブが含む全文書それぞれについて、前記構造化データ候補を生成して、当該構造化データ候補の群を前記確からしさが異なるよう分類し、当該分類の結果に応じて、前記構造化データ候補に対応する文書を、前記異なるモデルの処理対象とするものである、
ことを特徴とする請求項1に記載の語彙抽出支援システム。 - 前記演算装置は、
前記正当性判定による前記構造化データ候補の正否である、誤検出または正当検出に関し寄与した特徴量および文書を所定アルゴリズムで分析し、当該分析の結果をもとに低品質と評価された特徴量および文書のフィルタリングを実行するものである、
ことを特徴とする請求項1に記載の語彙抽出支援システム。 - 処理対象の文書アーカイブ、および語彙間の関係性を規定した辞書を保持する記憶装置を備えた情報処理システムが、
前記文書アーカイブが含む文書を、前記辞書に照合して所定語彙間の関係性に関する構造化データ候補を生成するに際し、ユーザ指定の語彙セットを含む複数の文書を前記文書アーカイブから抽出し、当該複数の文書それぞれについて異なるモデルで前記構造化データ候補を生成し、前記構造化データ候補の確からしさに応じて当該構造化データ候補の正当性判定を行うに際し、前記構造化データ候補のうち確からしさが所定レベル以下のものについて、当該構造化データ候補の生成主体とは異なるモデルに紐付いた前記正当性判定を行い、当該構造化データ候補の正否を確定させ、前記正当性判定の結果に基づき当該構造化データ候補を前記辞書に追加する処理、
を実行する語彙抽出支援方法。 - 前記情報処理システムが、
前記複数の文書を前記文書アーカイブから抽出するに際し、前記語彙セットを含む文書のうち、ユーザ指定の文書属性に適合する文書を抽出する、
ことを特徴とする請求項5に記載の語彙抽出支援方法。 - 前記情報処理システムが、
前記文書アーカイブが含む全文書それぞれについて、前記構造化データ候補を生成して、当該構造化データ候補の群を前記確からしさが異なるよう分類し、当該分類の結果に応じて、前記構造化データ候補に対応する文書を、前記異なるモデルの処理対象とする、
ことを特徴とする請求項5に記載の語彙抽出支援方法。 - 前記情報処理システムが、
前記正当性判定による前記構造化データ候補の正否である、誤検出または正当検出に関し寄与した特徴量および文書を所定アルゴリズムで分析し、当該分析の結果をもとに低品質と評価された特徴量および文書のフィルタリングを実行する、
ことを特徴とする請求項5に記載の語彙抽出支援方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018232580A JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
US16/711,008 US11397853B2 (en) | 2018-12-12 | 2019-12-11 | Word extraction assistance system and word extraction assistance method |
JP2023129567A JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018232580A JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023129567A Division JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020095452A JP2020095452A (ja) | 2020-06-18 |
JP7330691B2 true JP7330691B2 (ja) | 2023-08-22 |
Family
ID=71071647
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018232580A Active JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
JP2023129567A Active JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023129567A Active JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11397853B2 (ja) |
JP (2) | JP7330691B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022144778A (ja) | 2021-03-19 | 2022-10-03 | 株式会社日立製作所 | 候補アイディアを生成するシステム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217128A1 (en) | 2015-01-27 | 2016-07-28 | Verint Systems Ltd. | Ontology expansion using entity-association rules and abstract relations |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4571404B2 (ja) * | 2001-07-26 | 2010-10-27 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ処理方法、データ処理システムおよびプログラム |
JP2005092253A (ja) | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
US8504908B2 (en) * | 2007-10-17 | 2013-08-06 | ITI Scotland, Limited | Computer-implemented methods displaying, in a first part, a document and in a second part, a selected index of entities identified in the document |
JP2011118689A (ja) | 2009-12-03 | 2011-06-16 | Univ Of Tokyo | 検索方法及びシステム |
US9436663B2 (en) * | 2012-12-17 | 2016-09-06 | Hewlett Packard Enterprise Development Lp | Presenting documents to a user based on topics and collective opinions expressed in the documents |
JP6847812B2 (ja) | 2017-10-25 | 2021-03-24 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
-
2018
- 2018-12-12 JP JP2018232580A patent/JP7330691B2/ja active Active
-
2019
- 2019-12-11 US US16/711,008 patent/US11397853B2/en active Active
-
2023
- 2023-08-08 JP JP2023129567A patent/JP7470235B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160217128A1 (en) | 2015-01-27 | 2016-07-28 | Verint Systems Ltd. | Ontology expansion using entity-association rules and abstract relations |
Non-Patent Citations (1)
Title |
---|
SHIN, Jaeho et al.,Incremental Knowledge Base Construction Using DeepDive,Cornell University,2015年06月15日,pp.1-19,[検索日 2022.04.04], Internet<URL: https://arxiv.org/abs/1502.00731 > |
Also Published As
Publication number | Publication date |
---|---|
JP7470235B2 (ja) | 2024-04-17 |
US11397853B2 (en) | 2022-07-26 |
JP2023145767A (ja) | 2023-10-11 |
JP2020095452A (ja) | 2020-06-18 |
US20200193090A1 (en) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019261735B2 (en) | System and method for recommending automation solutions for technology infrastructure issues | |
WO2021093755A1 (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
WO2016179938A1 (zh) | 题目推荐方法和题目推荐装置 | |
US20230289665A1 (en) | Failure feedback system for enhancing machine learning accuracy by synthetic data generation | |
US8719192B2 (en) | Transfer of learning for query classification | |
CA3052527C (en) | Target document template generation | |
US8108413B2 (en) | Method and apparatus for automatically discovering features in free form heterogeneous data | |
US8453027B2 (en) | Similarity detection for error reports | |
US11972216B2 (en) | Autonomous detection of compound issue requests in an issue tracking system | |
US20230351330A1 (en) | Autonomous suggestion of issue request content in an issue tracking system | |
US20220027748A1 (en) | Systems and methods for document similarity matching | |
JP7470235B2 (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
CN115422372A (zh) | 一种基于软件测试的知识图谱构建方法和系统 | |
US11604923B2 (en) | High volume message classification and distribution | |
US20230244987A1 (en) | Accelerated data labeling with automated data profiling for training machine learning predictive models | |
JP2001325104A (ja) | 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体 | |
CN109299381A (zh) | 一种基于语义概念的软件缺陷检索和分析系统及方法 | |
CN109344254A (zh) | 一种地址信息分类方法及装置 | |
Alexander | Automated Trouble Report Labeling: In The Telecom Industry | |
US20220284284A1 (en) | Music Release Disambiguation using Multi-Modal Neural Networks | |
US20240111736A1 (en) | Semantic classification for data management | |
US20230037894A1 (en) | Automated learning based executable chatbot | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
Sangeetha et al. | Fake News Detection System Using Multinomial Naïve Bayes Classifier | |
Khatun et al. | Analysis of Duplicate Bug Report Detection Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210415 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220412 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220613 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221018 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230314 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230413 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230711 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230809 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7330691 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |