JP7470235B2 - 語彙抽出支援システムおよび語彙抽出支援方法 - Google Patents
語彙抽出支援システムおよび語彙抽出支援方法 Download PDFInfo
- Publication number
- JP7470235B2 JP7470235B2 JP2023129567A JP2023129567A JP7470235B2 JP 7470235 B2 JP7470235 B2 JP 7470235B2 JP 2023129567 A JP2023129567 A JP 2023129567A JP 2023129567 A JP2023129567 A JP 2023129567A JP 7470235 B2 JP7470235 B2 JP 7470235B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- relationship
- document
- label
- extraction support
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title claims description 122
- 238000000034 method Methods 0.000 title claims description 62
- 238000012545 processing Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 9
- 239000002245 particle Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 26
- 238000004458 analytical method Methods 0.000 description 21
- 238000007726 management method Methods 0.000 description 17
- 230000000877 morphologic effect Effects 0.000 description 17
- 238000011156 evaluation Methods 0.000 description 15
- 238000004364 calculation method Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 12
- 239000000284 extract Substances 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000004891 communication Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 230000010365 information processing Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
そこで本発明の目的は、類義語/関連語を良好な効率および精度で抽出する技術を提供することにある。
また、管理サーバ100は、文書種別識別部110、およびhidden relation抽出精度評価部111を機能として有する。
ここで配信される文書セット160は、例えば、ドメインエキスパートが指定した属性1175(例:装置名-処理名)を備える語彙が含まれる文書となる。
---ハードウェア構成---
このうち記憶装置101は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ103は、RAMなど揮発性記憶素子で構成される。
また、入力装置105は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、或いはマイクである。
また、出力装置106は、演算装置104での処理データの表示を行うディスプレイ、スピーカー等である。
また、通信装置107は、適宜なネットワークと接続して構造化データ生成サーバ150との通信処理を担うネットワークインターフェイスカードである。
このうち記憶装置151は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ153は、RAMなど揮発性記憶素子で構成される。
また、入力装置155は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、或いはマイクである。
また、出力装置156は、演算装置154での処理データの表示を行うディスプレイ、スピーカー等である。
---データ構造例---
続いて、本実施形態の語彙抽出支援システム10における管理サーバ100、構造化データ生成サーバ150らが用いる情報について説明する。
図6の例では、該当文章における表記場所およびその場所に記載のキーワード、の組みとして上述の属性が規定されており、表記場所として、「表紙ページ先頭」、「ヘッダ部」、「先頭100文字以内」、といった値が規定され、該当場所に記載されているべき「キーワード」として「機能仕様書」、「障害報告書」、「題目:[障害報告]」、といった値が規定されている。
文書識別部110は、この文書識別ルール1101を、文書アーカイブ116の各文書に適用し、当該ルールが適合する複数の文書を抽出することとなる。
---フロー例(文書アーカイブからの文書セットの抽出・配信)---
一方、上述の例とは異なる形で文書セット160の配信先を決定する形態も想定できる。図8に、本実施形態における語彙抽出支援方法のフロー例2を示す。
上述のクラスタリングは、上述のベクトル値が構造化データ生成サーバ150ごとに異なるよう文書を分類し文書セット160を構成する処理となる。
---フロー例(hiddenrelation抽出、hiddenrelation正当性自動判別)---
このうち特徴量における、「WORD_IN_BETWEEN」は、キーワード1とキーワード2との間に存在する語彙(記号含む)を示している。
また、hidden relation抽出精度評価部111は、s37で記録されたモデル情報及びテスト結果を参照する(s39)。
この場合、hidden relation抽出部112は、要求されたモデル情報に強制更新し(s41)、処理を終了する。
---フロー例(特徴量および文書のフィルタリング)---
図15は、本実施形態における語彙抽出処理概念の例1を示す図であり、図16は、本実施形態における語彙抽出処理概念の例2を示す図である。
続いて図17~図21にて、本実施形態における語彙抽出支援方法のフロー例6~8を示す。
なお、上述のように判定要因を特定する技術としては、機械学習アルゴリズムにおける、いわゆる逆解析手法を適宜に採用すればよい。
また、低品質文書&特徴量除去部115は、s65で抽出した文書を、文書アーカイブ116から削除する(s66)。
こうした本実施形態によれば、類義語/関連語を良好な効率および精度で抽出可能となる。
100 管理サーバ
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 入力装置
106 出力装置
107 通信装置
110 文書識別部
1101 文書識別ルール
111 hidden relation抽出精度評価部
114 推論寄与特徴量&文書判別部
115 低品質文書&特徴量除去部
116 文書アーカイブ
117 抽出relation情報(辞書)
1171 装置名-処理名辞書
1172 synonym辞書
1173 抽出可能サーバ情報
150 構造化データ生成サーバ
151 記憶装置
152 プログラム
153 メモリ
154 演算装置
155 入力装置
156 出力装置
157 通信装置
112 hidden relation抽出部
1121 ラベリング部
1122 候補&特徴量抽出部
11221 候補&特徴量抽出テンプレート
1123 学習・推論部
113 hidden relation正当性自動判別部
160 文書セット
161 hidden relation候補(構造化データ候補)
Claims (9)
- 記憶装置と演算装置とを有する語彙抽出支援システムであって、
前記記憶装置は、
少なくとも二つの語彙を含む語彙セットを有する文書を含む文書アーカイブと、前記文書アーカイブから前記語彙セットに関して抽出される特徴量とを保持し、
前記演算装置は、
前記特徴量と、該特徴量を抽出した語彙セットと、該語彙セットの少なくとも二つの語彙が関係性を有するか否かの確からしさを示す、前記特徴量に基づき所定モデルにより算出される関係存在確率情報と、前記語彙セット毎に予め付与され、該語彙セットの少なくとも二つの語彙が関係性を有するか否かを示すラベルと、を含む語彙関係データ候補を生成する生成部と、
前記関係存在確率情報に基づいて該語彙セットの少なくとも二つの語彙が関係性を有するか否かを判定する正当性判定部と、
前記正当性判定部の判定結果と、該判定を行った語彙セットに付与されたラベルとの相違を判定する相違判定部と、
前記相違判定部において前記判定結果と前記ラベルとが相違していると判定した場合に、該ラベルが付与された語彙セットを有する文書と、該語彙セットから抽出された特徴量とを検出する検出部と、
前記検出部で検出された特徴量を更新される前記所定モデルの学習データから除外すると共に、前記検出部で検出された文書を前記記憶装置から削除をするフィルタリング処理を実行するフィルタリング処理部とを備える、
ことを特徴とする語彙抽出支援システム。 - 前記生成部は、前記フィルタリング処理で除外された特徴量以外の特徴量と、前記フィルタリング処理で削除された文書以外の文書とに基づき、前記語彙関係データ候補を更新する、
ことを特徴とする請求項1に記載の語彙抽出支援システム。 - 前記相違判定部は、付与された前記ラベルと前記正当性判定部の判定の結果が相違している場合には、誤検出または検出漏れと判定し、
前記検出部は前記誤検出または検出漏れに寄与していると判定された特徴量および文書を検出する、
ことを特徴とする請求項2に記載の語彙抽出支援システム。 - 前記相違判定部は、前記ラベルが前記関係性を有することを示しているが、前記正当性判定部で前記関係性が存在しないと判定された場合には、検出漏れと判定し、
前記ラベルが前記関係性を有することを示していないが、前記正当性判定部で前記関係性が存在しうると判定された場合は、誤検出と判定する、
ことを特徴とする請求項3に記載の語彙抽出支援システム。 - 前記検出部は、
さらに、前記判定結果と前記ラベルとが相違していないと判定した特徴量及び文書を検出し、
前記フィルタリング処理部は、
前記特徴量及び文書毎に、相違なしの判定、誤検出および検出漏れの数をカウントし、相違なしの判定よりも、誤検出または検出漏れの数が多い特徴量を除外し文書を削除する、
ことを特徴とする請求項4に記載の語彙抽出支援システム。 - 前記ラベルは、前記語彙のセットが、少なくとも二つのキーワードの語彙セットが登録されている辞書情報に規定されているか否かを示す情報である、
ことを特徴とする請求項5に記載の語彙抽出支援システム。 - 前記正当性判定部は、前記関係存在確率情報が示す確からしさの値が予め定められた閾値以上の場合は前記関係性を有すると、閾値以下の場合は前記関係性を有しないと判定する、
ことを特徴とする請求項6に記載の語彙抽出支援システム。 - 前記特徴量は、語彙間の関係を示唆する助詞である、
ことを特徴とする請求項7に記載の語彙抽出支援システム。 - 記憶装置と演算装置とを有する語彙抽出支援システムが実行する語彙抽出支援方法であって、
少なくとも二つの語彙を含む語彙セットを有する文書を含む文書アーカイブと、前記文書アーカイブから前記語彙セットに関して抽出される特徴量とを前記記憶装置で保持し、
前記演算装置が、
前記特徴量と、該特徴量を抽出した語彙セットと、該語彙セットの少なくとも二つの語彙が関係性を有するか否かの確からしさを示す、前記特徴量に基づき所定モデルにより算出される関係存在確率情報と、前記語彙セット毎に予め付与され、該語彙セットの少なくとも二つの語彙が関係性を有するか否かを示すラベルと、を含む語彙関係データ候補を生成し、
前記関係存在確率情報に基づいて該語彙セットの少なくとも二つの語彙が関係性を有するか否かを判定し、
前記関係性の判定の判定結果と、該判定を行った語彙セットに付与されたラベルとの相違を判定し、
相違の判定において前記判定結果と前記ラベルとが相違していると判定した場合に、該ラベルが付与された語彙セットを有する文書と、該語彙セットから抽出された特徴量とを検出し、
検出された特徴量を更新される前記所定モデルの学習データから除外すると共に、検出された文書を、前記記憶装置から削除するフィルタリング処理を実行する、
ことを特徴とする語彙抽出支援方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023129567A JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018232580A JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
JP2023129567A JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018232580A Division JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023145767A JP2023145767A (ja) | 2023-10-11 |
JP7470235B2 true JP7470235B2 (ja) | 2024-04-17 |
Family
ID=71071647
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018232580A Active JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
JP2023129567A Active JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018232580A Active JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11397853B2 (ja) |
JP (2) | JP7330691B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022144778A (ja) | 2021-03-19 | 2022-10-03 | 株式会社日立製作所 | 候補アイディアを生成するシステム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118689A (ja) | 2009-12-03 | 2011-06-16 | Univ Of Tokyo | 検索方法及びシステム |
US20160217128A1 (en) | 2015-01-27 | 2016-07-28 | Verint Systems Ltd. | Ontology expansion using entity-association rules and abstract relations |
JP2019079321A (ja) | 2017-10-25 | 2019-05-23 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1429258A4 (en) * | 2001-07-26 | 2007-08-29 | Ibm | DATA PROCESSING, DATA PROCESSING SYSTEM AND PROGRAM |
JP2005092253A (ja) | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
JP2011501847A (ja) * | 2007-10-17 | 2011-01-13 | アイティーアイ・スコットランド・リミテッド | コンピュータで実現される方法 |
US9436663B2 (en) * | 2012-12-17 | 2016-09-06 | Hewlett Packard Enterprise Development Lp | Presenting documents to a user based on topics and collective opinions expressed in the documents |
-
2018
- 2018-12-12 JP JP2018232580A patent/JP7330691B2/ja active Active
-
2019
- 2019-12-11 US US16/711,008 patent/US11397853B2/en active Active
-
2023
- 2023-08-08 JP JP2023129567A patent/JP7470235B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118689A (ja) | 2009-12-03 | 2011-06-16 | Univ Of Tokyo | 検索方法及びシステム |
US20160217128A1 (en) | 2015-01-27 | 2016-07-28 | Verint Systems Ltd. | Ontology expansion using entity-association rules and abstract relations |
JP2019079321A (ja) | 2017-10-25 | 2019-05-23 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
SHIN, Jaeho et al.,Incremental Knowledge Base Construction Using DeepDive,Cornell University,2015年06月15日,pp.1-19,[検索日 2022.04.04], Internet<URL: https://arxiv.org/abs/1502.00731 > |
Also Published As
Publication number | Publication date |
---|---|
US11397853B2 (en) | 2022-07-26 |
JP7330691B2 (ja) | 2023-08-22 |
JP2020095452A (ja) | 2020-06-18 |
US20200193090A1 (en) | 2020-06-18 |
JP2023145767A (ja) | 2023-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230409835A1 (en) | Discovering a semantic meaning of data fields from profile data of the data fields | |
US8453027B2 (en) | Similarity detection for error reports | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US20180232443A1 (en) | Intelligent matching system with ontology-aided relation extraction | |
US8364618B1 (en) | Large scale machine learning systems and methods | |
Paramesh et al. | Automated IT service desk systems using machine learning techniques | |
US10789225B2 (en) | Column weight calculation for data deduplication | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
US20090089285A1 (en) | Method of detecting spam hosts based on propagating prediction labels | |
US20090089373A1 (en) | System and method for identifying spam hosts using stacked graphical learning | |
JP7470235B2 (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
US11836331B2 (en) | Mathematical models of graphical user interfaces | |
CN108027814A (zh) | 停用词识别方法与装置 | |
US11822578B2 (en) | Matching machine generated data entries to pattern clusters | |
Dasgupta et al. | Towards auto-remediation in services delivery: Context-based classification of noisy and unstructured tickets | |
US11604923B2 (en) | High volume message classification and distribution | |
US11816112B1 (en) | Systems and methods for automated process discovery | |
CN116821903A (zh) | 检测规则确定及恶意二进制文件检测方法、设备及介质 | |
CN112199573B (zh) | 一种非法交易主动探测方法及系统 | |
Han et al. | UFTR: A unified framework for ticket routing | |
WO2020101478A1 (en) | System and method for managing duplicate entities based on a relationship cardinality in production knowledge base repository | |
US20240184661A1 (en) | Prediction network for automatic correlation of information | |
US20240184855A1 (en) | Training of prediction network for automatic correlation of information | |
WO2022129605A1 (en) | Method of processing data from a data source, apparatus and computer program | |
CN118627638A (zh) | 一种事件管理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230926 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240405 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7470235 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |