JP7135640B2 - 学習装置、抽出装置及び学習方法 - Google Patents
学習装置、抽出装置及び学習方法 Download PDFInfo
- Publication number
- JP7135640B2 JP7135640B2 JP2018174529A JP2018174529A JP7135640B2 JP 7135640 B2 JP7135640 B2 JP 7135640B2 JP 2018174529 A JP2018174529 A JP 2018174529A JP 2018174529 A JP2018174529 A JP 2018174529A JP 7135640 B2 JP7135640 B2 JP 7135640B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- mutual information
- learning
- word
- tags
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
実施の形態に係る抽出装置について、抽出装置の概略構成、及び、抽出装置における処理の流れ及び具体例を説明する。
次に、抽出装置10の構成について説明する。図2は、実施の形態に係る抽出装置の構成の一例を説明する図である。抽出装置10は、例えば、パソコン等の汎用コンピュータで実現され、図2に示すように、入力部11、通信部12、記憶部13、制御部14及び出力部15を有する。
次に、抽出装置10が行う処理のうち学習処理について説明する。図5は、図2が示す抽出装置10が行なう学習処理を説明する図である。
次に、抽出装置10が行う処理のうち試験処理について説明する。図7は、図2が示す抽出装置が行なう試験処理を説明する図である。
次に、自己相互情報量計算部1411の処理について説明する。自己相互情報量計算部1411は、以下の(1)式を用いて自己相互情報量PMI(x、y)を計算する。
次に、削除部1412の処理について説明する。削除部1412は、自己相互情報量計算部1411が計算した各単語のPMIを基に、タグとの関連性が低い記載部分を求めて教師データDeから削除する。図8~図10は、図2に示す削除部1412の処理を説明する図である。
次に、抽出装置10が行う処理のうち学習処理の処理手順について説明する。図11は、図2が示す抽出装置10が行なう学習処理の処理手順を示すフローチャートである。
図11の前処理(ステップS2)の処理手順について説明する。図12は、図11に示す前処理の処理手順を示すフローチャートである。
次に、抽出装置10が行う処理のうち試験処理の処理手順について説明する。図13は、図2が示す抽出装置10が行なう試験処理の処理手順を示すフローチャートである。
図14は、教師データの記載内容を説明する図である。教師データDeのうち、タグが付与される可能性のある部分Re-1,Re-2だけが機械学習に必要であるが、タグと無関係の部分Rd-1,Rd-2が含まれている(図14の(1)参照)。このように、教師データDeには、タグと無関係の部分Rd-1,Rd-2が含まれるため、従来の抽出方法では、機械学習に影響を与えていた。実際に、ソフトウェア開発において有スキル者が手動で抽出した試験項目と、従来の自動抽出方法で抽出した試験項目とでは誤りが多く存在していた。
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、或いは、ワイヤードロジックによるハードウェアとして実現され得る。
図15は、プログラムが実行されることにより、抽出装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
11 入力部
12 通信部
13 記憶部
14 制御部
15 出力部
141 前処理部
142 学習部
143 タグ付与部
144 試験項目抽出部
1411 自己相互情報量計算部
1412 削除部
De 教師データ
Da 試験データ
Di 試験項目データ
Claims (6)
- 自然言語で記載されたデータであって重要な記載部分に予めタグが付与されている教師データについて、前記タグとの関連度合いを示す自己相互情報量を単語ごとに計算し、各単語の前記自己相互情報量を基に、前記タグとの関連性が低い記載部分を前記教師データから削除する前処理を行う前処理部と、
前記前処理後の教師データを基に、前記タグが存在する記載箇所を確率統計的に学習し、前記タグが付与される記載箇所に関する条件付き確率の一覧であって、各単語の前後関係及び各文脈に対し、付与される前記タグの種別と付与される確率とを対応付けた条件付き確率の一覧を生成する学習部と、
を有することを特徴とする学習装置。 - 前記前処理部は、前記前処理として、前記自己相互情報量が所定の閾値より低い単語を、前記教師データから削除することを特徴とする請求項1に記載の学習装置。
- 前記前処理部は、前記前処理として、前記自己相互情報量が所定の閾値より高い名詞を含まない文を、前記教師データから削除することを特徴とする請求項1に記載の学習装置。
- 前記前処理部は、前記前処理として、前記自己相互情報量が所定の閾値より高い名詞を含む文であって、動詞を含まない文を、前記教師データから削除することを特徴とする請求項1に記載の学習装置。
- 自然言語で記載されたデータであって重要な記載部分に予めタグが付与されている教師データについて、前記タグとの関連度合いを示す自己相互情報量を単語ごとに計算し、各単語の前記自己相互情報量を基に、前記タグとの関連性が低い記載部分を前記教師データから削除する前処理を行う前処理部と、
前記前処理後の教師データを基に、前記タグが存在する記載箇所を確率統計的に学習し、前記タグが付与される記載箇所に関する条件付き確率の一覧であって、各単語の前後関係及び各文脈に対し、付与される前記タグの種別と付与される確率とを対応付けた条件付き確率の一覧を生成する学習部と、
前記条件付き確率の一覧を基に、方式検討、基本設計、機能設計、および詳細設計において生成される仕様書または設計書である試験データの記載内容に対してタグを付与するタグ付与部と、
前記タグが付与された試験データの記載内容から、単体試験、結合試験、および複数複合試験、安定化試験における試験項目を抽出する抽出部と、
を有することを特徴とする抽出装置。 - 学習装置が実行する学習方法であって、
自然言語で記載されたデータであって重要な記載部分に予めタグが付与されている教師データについて、前記タグとの関連度合いを示す自己相互情報量を単語ごとに計算し、各単語の前記自己相互情報量を基に、前記タグとの関連性が低い記載部分を前記教師データから削除する前処理を行う前処理工程と、
前記前処理後の教師データを基に、前記タグが存在する記載箇所を確率統計的に学習し、前記タグが付与される記載箇所に関する条件付き確率の一覧であって、各単語の前後関係及び各文脈に対し、付与される前記タグの種別と付与される確率とを対応付けた条件付き確率の一覧を生成する学習工程と、
を含んだことを特徴とする学習方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018174529A JP7135640B2 (ja) | 2018-09-19 | 2018-09-19 | 学習装置、抽出装置及び学習方法 |
US17/275,919 US20210264108A1 (en) | 2018-09-19 | 2019-09-02 | Learning device, extraction device, and learning method |
PCT/JP2019/034398 WO2020059469A1 (ja) | 2018-09-19 | 2019-09-02 | 学習装置、抽出装置及び学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018174529A JP7135640B2 (ja) | 2018-09-19 | 2018-09-19 | 学習装置、抽出装置及び学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020046907A JP2020046907A (ja) | 2020-03-26 |
JP7135640B2 true JP7135640B2 (ja) | 2022-09-13 |
Family
ID=69888723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018174529A Active JP7135640B2 (ja) | 2018-09-19 | 2018-09-19 | 学習装置、抽出装置及び学習方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210264108A1 (ja) |
JP (1) | JP7135640B2 (ja) |
WO (1) | WO2020059469A1 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005292958A (ja) | 2004-03-31 | 2005-10-20 | National Institute Of Information & Communication Technology | 教師データ作成装置およびプログラム、言語解析処理装置およびプログラム、ならびに要約処理装置およびプログラム |
JP2018045559A (ja) | 2016-09-16 | 2018-03-22 | 富士通株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150120379A1 (en) * | 2013-10-30 | 2015-04-30 | Educational Testing Service | Systems and Methods for Passage Selection for Language Proficiency Testing Using Automated Authentic Listening |
US20190354887A1 (en) * | 2018-05-18 | 2019-11-21 | Accenture Global Solutions Limited | Knowledge graph based learning content generation |
-
2018
- 2018-09-19 JP JP2018174529A patent/JP7135640B2/ja active Active
-
2019
- 2019-09-02 US US17/275,919 patent/US20210264108A1/en active Pending
- 2019-09-02 WO PCT/JP2019/034398 patent/WO2020059469A1/ja active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005292958A (ja) | 2004-03-31 | 2005-10-20 | National Institute Of Information & Communication Technology | 教師データ作成装置およびプログラム、言語解析処理装置およびプログラム、ならびに要約処理装置およびプログラム |
JP2018045559A (ja) | 2016-09-16 | 2018-03-22 | 富士通株式会社 | 情報処理装置、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2020059469A1 (ja) | 2020-03-26 |
JP2020046907A (ja) | 2020-03-26 |
US20210264108A1 (en) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113110988B (zh) | 利用定义的输入格式来测试应用 | |
Pasha et al. | Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic. | |
Bikel | Intricacies of Collins' parsing model | |
EP2664997B1 (en) | System and method for resolving named entity coreference | |
US7610191B2 (en) | Method for fast semi-automatic semantic annotation | |
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
US7299228B2 (en) | Learning and using generalized string patterns for information extraction | |
US10503830B2 (en) | Natural language processing with adaptable rules based on user inputs | |
RU2613846C2 (ru) | Метод и система извлечения данных из изображений слабоструктурированных документов | |
US8301435B2 (en) | Removing ambiguity when analyzing a sentence with a word having multiple meanings | |
EP3683695A1 (en) | Synonym dictionary creation device, synonym dictionary creation program, and synonym dictionary creation method | |
US11537797B2 (en) | Hierarchical entity recognition and semantic modeling framework for information extraction | |
US20150331855A1 (en) | Translation and dictionary selection by context | |
JP7135641B2 (ja) | 学習装置、抽出装置及び学習方法 | |
WO2019085118A1 (zh) | 基于主题模型的关联词分析方法、电子装置及存储介质 | |
JP5317061B2 (ja) | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 | |
JP7135640B2 (ja) | 学習装置、抽出装置及び学習方法 | |
US20220075950A1 (en) | Data labeling method and device, and storage medium | |
US7657422B2 (en) | System and method for text analysis | |
Langlais et al. | Issues in analogical inference over sequences of symbols: A case study on proper name transliteration | |
JP2020071668A (ja) | 要約生成方法及び要約生成プログラム | |
US11657229B2 (en) | Using a joint distributional semantic system to correct redundant semantic verb frames | |
WO2022091422A1 (ja) | 推定装置、推定方法、および、推定プログラム | |
WO2021009885A1 (ja) | 教師データ生成装置、教師データ生成方法および教師データ生成プログラム | |
WO2021117246A1 (ja) | データ処理装置、データ処理方法及びデータ処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7135640 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |