JP2023145767A - 語彙抽出支援システムおよび語彙抽出支援方法 - Google Patents
語彙抽出支援システムおよび語彙抽出支援方法 Download PDFInfo
- Publication number
- JP2023145767A JP2023145767A JP2023129567A JP2023129567A JP2023145767A JP 2023145767 A JP2023145767 A JP 2023145767A JP 2023129567 A JP2023129567 A JP 2023129567A JP 2023129567 A JP2023129567 A JP 2023129567A JP 2023145767 A JP2023145767 A JP 2023145767A
- Authority
- JP
- Japan
- Prior art keywords
- document
- structured data
- vocabulary
- candidate
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000012545 processing Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 abstract description 14
- 230000000877 morphologic effect Effects 0.000 description 17
- 238000011156 evaluation Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 12
- 238000010801 machine learning Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 11
- 230000015654 memory Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000010365 information processing Effects 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000009411 base construction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/226—Validation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
そこで本発明の目的は、類義語/関連語を良好な効率および精度で抽出する技術を提供することにある。
前記分析の結果をもとに、低品質と評価された特徴量および文書のフィルタリングを実行する第4の処理を実行し、前記フィルタリングされた特徴量及び文書に基づき、前記第1の処理を実行する、ことを特徴とする。
また、管理サーバ100は、文書種別識別部110、およびhidden relation抽出精度評価部111を機能として有する。
ここで配信される文書セット160は、例えば、ドメインエキスパートが指定した属性1175(例:装置名-処理名)を備える語彙が含まれる文書となる。
---ハードウェア構成---
このうち記憶装置101は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ103は、RAMなど揮発性記憶素子で構成される。
また、入力装置105は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、或いはマイクである。
また、出力装置106は、演算装置104での処理データの表示を行うディスプレイ、スピーカー等である。
また、通信装置107は、適宜なネットワークと接続して構造化データ生成サーバ150との通信処理を担うネットワークインターフェイスカードである。
このうち記憶装置151は、SSD(Solid State Drive)やハードディスクドライブなど適宜な不揮発性記憶素子で構成される。
また、メモリ153は、RAMなど揮発性記憶素子で構成される。
また、入力装置155は、ユーザからのキー入力や音声入力を受け付けるキーボードやマウス、或いはマイクである。
また、出力装置156は、演算装置154での処理データの表示を行うディスプレイ、スピーカー等である。
---データ構造例---
続いて、本実施形態の語彙抽出支援システム10における管理サーバ100、構造化データ生成サーバ150らが用いる情報について説明する。
図6の例では、該当文章における表記場所およびその場所に記載のキーワード、の組みとして上述の属性が規定されており、表記場所として、「表紙ページ先頭」、「ヘッダ部」、「先頭100文字以内」、といった値が規定され、該当場所に記載されているべき「キーワード」として「機能仕様書」、「障害報告書」、「題目:[障害報告]」、といった値が規定されている。
文書識別部110は、この文書識別ルール1101を、文書アーカイブ116の各文書に適用し、当該ルールが適合する複数の文書を抽出することとなる。
---フロー例(文書アーカイブからの文書セットの抽出・配信)---
一方、上述の例とは異なる形で文書セット160の配信先を決定する形態も想定できる。図8に、本実施形態における語彙抽出支援方法のフロー例2を示す。
上述のクラスタリングは、上述のベクトル値が構造化データ生成サーバ150ごとに異なるよう文書を分類し文書セット160を構成する処理となる。
---フロー例(hiddenrelation抽出、hiddenrelation正当性自動判別)---
このうち特徴量における、「WORD_IN_BETWEEN」は、キーワード1とキーワード2との間に存在する語彙(記号含む)を示している。
また、hidden relation抽出精度評価部111は、s37で記録されたモデル情報及びテスト結果を参照する(s39)。
この場合、hidden relation抽出部112は、要求されたモデル情報に強制更新し(s41)、処理を終了する。
---フロー例(特徴量および文書のフィルタリング)---
図15は、本実施形態における語彙抽出処理概念の例1を示す図であり、図16は、本実施形態における語彙抽出処理概念の例2を示す図である。
続いて図17~図21にて、本実施形態における語彙抽出支援方法のフロー例6~8を示す。
なお、上述のように判定要因を特定する技術としては、機械学習アルゴリズムにおける、いわゆる逆解析手法を適宜に採用すればよい。
また、低品質文書&特徴量除去部115は、s65で抽出した文書を、文書アーカイブ116から削除する(s66)。
こうした本実施形態によれば、類義語/関連語を良好な効率および精度で抽出可能となる。
100 管理サーバ
101 記憶装置
102 プログラム
103 メモリ
104 演算装置
105 入力装置
106 出力装置
107 通信装置
110 文書識別部
1101 文書識別ルール
111 hidden relation抽出精度評価部
114 推論寄与特徴量&文書判別部
115 低品質文書&特徴量除去部
116 文書アーカイブ
117 抽出relation情報(辞書)
1171 装置名-処理名辞書
1172 synonym辞書
1173 抽出可能サーバ情報
150 構造化データ生成サーバ
151 記憶装置
152 プログラム
153 メモリ
154 演算装置
155 入力装置
156 出力装置
157 通信装置
112 hidden relation抽出部
1121 ラベリング部
1122 候補&特徴量抽出部
11221 候補&特徴量抽出テンプレート
1123 学習・推論部
113 hidden relation正当性自動判別部
160 文書セット
161 hidden relation候補(構造化データ候補)
Claims (2)
- 記憶装置と演算装置とを有する語彙抽出支援システムであって、
前記記憶装置は、処理対象の文書アーカイブを保持し、
前記演算装置は、
文書アーカイブが含む文書内の所定語彙間の関係性に関する構造化データ候補を生成する第1の処理と、
構造化データ候補の確からしさに応じて構造化データ候補の正当性判定を行う第2の処理と、
前記正当性判定による構造化データ候補の正否である、誤検出または正当検出に関し寄与した特徴量および文書を所定アルゴリズムで分析する第3の処理と、
前記分析の結果をもとに、低品質と評価された特徴量および文書のフィルタリングを実行する第4の処理を実行し、
前記フィルタリングされた特徴量及び文書に基づき、前記第1の処理を実行するものである、
ことを特徴とする語彙抽出支援システム。 - 記憶装置と演算装置とを有する語彙抽出支援システムにおいて、
前記記憶装置が、処理対象の文書アーカイブを保持し、
前記演算装置が、
文書アーカイブが含む文書内の所定語彙間の関係性に関する構造化データ候補を生成する第1の処理と、
構造化データ候補の確からしさに応じて構造化データ候補の正当性判定を行う第2の処理と、
前記正当性判定による構造化データ候補の正否である、誤検出または正当検出に関し寄与した特徴量および文書を所定アルゴリズムで分析する第3の処理と、
前記分析の結果をもとに、低品質と評価された特徴量および文書のフィルタリングを実行する第4の処理を実行し、
前記フィルタリングされた特徴量及び文書に基づき、前記第1の処理を実行する、
語彙抽出支援方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023129567A JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018232580A JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
JP2023129567A JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018232580A Division JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023145767A true JP2023145767A (ja) | 2023-10-11 |
JP7470235B2 JP7470235B2 (ja) | 2024-04-17 |
Family
ID=71071647
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018232580A Active JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
JP2023129567A Active JP7470235B2 (ja) | 2018-12-12 | 2023-08-08 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018232580A Active JP7330691B2 (ja) | 2018-12-12 | 2018-12-12 | 語彙抽出支援システムおよび語彙抽出支援方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11397853B2 (ja) |
JP (2) | JP7330691B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022144778A (ja) | 2021-03-19 | 2022-10-03 | 株式会社日立製作所 | 候補アイディアを生成するシステム |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1429258A4 (en) * | 2001-07-26 | 2007-08-29 | Ibm | DATA PROCESSING, DATA PROCESSING SYSTEM AND PROGRAM |
JP2005092253A (ja) | 2003-09-11 | 2005-04-07 | Fuji Xerox Co Ltd | 機械学習用データ生成システム及び機械学習用データ生成方法、類似文書対生成システム及び類似文書対生成方法、並びにコンピュータ・プログラム |
JP2011501847A (ja) * | 2007-10-17 | 2011-01-13 | アイティーアイ・スコットランド・リミテッド | コンピュータで実現される方法 |
JP2011118689A (ja) | 2009-12-03 | 2011-06-16 | Univ Of Tokyo | 検索方法及びシステム |
US9436663B2 (en) * | 2012-12-17 | 2016-09-06 | Hewlett Packard Enterprise Development Lp | Presenting documents to a user based on topics and collective opinions expressed in the documents |
US11030406B2 (en) | 2015-01-27 | 2021-06-08 | Verint Systems Ltd. | Ontology expansion using entity-association rules and abstract relations |
JP6847812B2 (ja) | 2017-10-25 | 2021-03-24 | 株式会社東芝 | 文書理解支援装置、文書理解支援方法、およびプログラム |
-
2018
- 2018-12-12 JP JP2018232580A patent/JP7330691B2/ja active Active
-
2019
- 2019-12-11 US US16/711,008 patent/US11397853B2/en active Active
-
2023
- 2023-08-08 JP JP2023129567A patent/JP7470235B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP7470235B2 (ja) | 2024-04-17 |
US11397853B2 (en) | 2022-07-26 |
JP7330691B2 (ja) | 2023-08-22 |
JP2020095452A (ja) | 2020-06-18 |
US20200193090A1 (en) | 2020-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697162B (zh) | 一种基于开源代码库的软件缺陷自动检测方法 | |
US10902207B2 (en) | Identifying application software performance problems using automated content-based semantic monitoring | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US8453027B2 (en) | Similarity detection for error reports | |
US10692019B2 (en) | Failure feedback system for enhancing machine learning accuracy by synthetic data generation | |
TWI723528B (zh) | 電腦執行的事件風險評估方法及裝置、電腦可讀儲存媒體以及計算設備 | |
US10789225B2 (en) | Column weight calculation for data deduplication | |
US20200184072A1 (en) | Analysis device, log analysis method, and recording medium | |
CN105378731A (zh) | 从被回答问题关联语料库/语料值 | |
CN107844533A (zh) | 一种智能问答系统及分析方法 | |
US11620558B1 (en) | Iterative machine learning based techniques for value-based defect analysis in large data sets | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
US11550707B2 (en) | Systems and methods for generating and executing a test case plan for a software product | |
JP7470235B2 (ja) | 語彙抽出支援システムおよび語彙抽出支援方法 | |
CN114139636B (zh) | 异常作业处理方法及装置 | |
US11604923B2 (en) | High volume message classification and distribution | |
US20220327394A1 (en) | Learning support apparatus, learning support methods, and computer-readable recording medium | |
US12026467B2 (en) | Automated learning based executable chatbot | |
Papas et al. | Combining clustering and classification for software quality evaluation | |
US11816112B1 (en) | Systems and methods for automated process discovery | |
CN108460049B (zh) | 一种确定信息类别的方法和系统 | |
US11210605B1 (en) | Dataset suitability check for machine learning | |
CN112199573B (zh) | 一种非法交易主动探测方法及系统 | |
WO2020101478A1 (en) | System and method for managing duplicate entities based on a relationship cardinality in production knowledge base repository | |
US20220391734A1 (en) | Machine learning based dataset detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230808 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230926 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20231214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240116 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240201 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240220 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240405 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7470235 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |