JP7135641B2 - 学習装置、抽出装置及び学習方法 - Google Patents
学習装置、抽出装置及び学習方法 Download PDFInfo
- Publication number
- JP7135641B2 JP7135641B2 JP2018174531A JP2018174531A JP7135641B2 JP 7135641 B2 JP7135641 B2 JP 7135641B2 JP 2018174531 A JP2018174531 A JP 2018174531A JP 2018174531 A JP2018174531 A JP 2018174531A JP 7135641 B2 JP7135641 B2 JP 7135641B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- learning
- word
- tag
- information gain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Description
実施の形態に係る抽出装置について、抽出装置の概略構成、及び、抽出装置における処理の流れ及び具体例を説明する。
次に、抽出装置10の構成について説明する。図2は、実施の形態に係る抽出装置の構成の一例を説明する図である。抽出装置10は、例えば、パソコン等の汎用コンピュータで実現され、図2に示すように、入力部11、通信部12、記憶部13、制御部14及び出力部15を有する。
次に、抽出装置10が行う処理のうち学習処理について説明する。図5は、図2が示す抽出装置10が行なう学習処理を説明する図である。
次に、抽出装置10が行う処理のうち試験処理について説明する。図7は、図2が示す抽出装置が行なう試験処理を説明する図である。
次に、情報利得計算部1411の処理について説明する。情報利得計算部1411は、以下の(1)式を用いて情報利得IG(i)を計算する。
次に、削除部1412の処理について説明する。削除部1412は、情報利得計算部1411が計算した各単語の情報利得を基に、タグとの関連性が低い記載部分を求めて教師データDeから削除する。図8~図10は、図2に示す削除部1412の処理を説明する図である。
次に、抽出装置10が行う処理のうち学習処理の処理手順について説明する。図11は、図2が示す抽出装置10が行なう学習処理の処理手順を示すフローチャートである。
図11の前処理(ステップS2)の処理手順について説明する。図12は、図11に示す前処理の処理手順を示すフローチャートである。
次に、抽出装置10が行う処理のうち試験処理の処理手順について説明する。図13は、図2が示す抽出装置10が行なう試験処理の処理手順を示すフローチャートである。
図14は、教師データの記載内容を説明する図である。教師データDeのうち、タグが付与される可能性のある部分Re-1,Re-2だけが機械学習に必要であるが、タグと無関係の部分Rd-1,Rd-2が含まれている(図14の(1)参照)。このように、教師データDeには、タグと無関係の部分Rd-1,Rd-2が含まれるため、従来の抽出方法では、機械学習に影響を与えていた。実際に、ソフトウェア開発において有スキル者が手動で抽出した試験項目と、従来の自動抽出方法で抽出した試験項目とでは誤りが多く存在していた。
図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行なわれる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、或いは、ワイヤードロジックによるハードウェアとして実現され得る。
図15は、プログラムが実行されることにより、抽出装置10が実現されるコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
11 入力部
12 通信部
13 記憶部
14 制御部
15 出力部
141 前処理部
142 学習部
143 タグ付与部
144 試験項目抽出部
1411 情報利得計算部
1412 削除部
De 教師データ
Da 試験データ
Di 試験項目データ
Claims (6)
- 自然言語で記載されたデータであって重要な記載部分に予めタグが付与されている教師データについて、前記タグとの関連度合いを示す情報利得を単語ごとに計算し、各単語の前記情報利得を基に、前記タグとの関連性が低い記載部分を前記教師データから削除する前処理を行う前処理部と、
前記前処理後の教師データを基に、前記タグが存在する記載箇所を確率統計的に学習し、前記タグが付与される記載箇所に関する条件付き確率の一覧であって、各単語の前後関係及び各文脈に対し、付与される前記タグの種別と付与される確率とを対応付けた条件付き確率の一覧を生成する学習部と、
を有することを特徴とする学習装置。 - 前記前処理部は、前記前処理として、前記情報利得が所定の閾値より低い単語を、前記教師データから削除することを特徴とする請求項1に記載の学習装置。
- 前記前処理部は、前記前処理として、前記情報利得が所定の閾値より高い名詞を含まない文を、前記教師データから削除することを特徴とする請求項1に記載の学習装置。
- 前記前処理部は、前記前処理として、前記情報利得が所定の閾値より高い名詞を含む文であって、動詞を含まない文を、前記教師データから削除することを特徴とする請求項1に記載の学習装置。
- 自然言語で記載されたデータであって重要な記載部分に予めタグが付与されている教師データについて、前記タグとの関連度合いを示す自己相互情報量を単語ごとに計算し、各単語の前記自己相互情報量を基に、前記タグとの関連性が低い記載部分を前記教師データから削除する前処理を行う前処理部と、
前記前処理後の教師データを基に、前記タグが存在する記載箇所を確率統計的に学習し、前記タグが付与される記載箇所に関する条件付き確率の一覧であって、各単語の前後関係及び各文脈に対し、付与される前記タグの種別と付与される確率とを対応付けた条件付き確率の一覧を生成する学習部と、
前記条件付き確率の一覧を基に、方式検討、基本設計、機能設計、および詳細設計において生成される仕様書または設計書である試験データの記載内容に対してタグを付与するタグ付与部と、
前記タグが付与された試験データの記載内容から、単体試験、結合試験、および複数複合試験、安定化試験における試験項目を抽出する抽出部と、
を有することを特徴とする抽出装置。 - 学習装置が実行する学習方法であって、
自然言語で記載されたデータであって重要な記載部分に予めタグが付与されている教師データについて、前記タグとの関連度合いを示す情報利得を単語ごとに計算し、各単語の前記情報利得を基に、前記タグとの関連性が低い記載部分を前記教師データから削除する前処理を行う前処理工程と、
前記前処理後の教師データを基に、前記タグが存在する記載箇所を確率統計的に学習し、前記タグが付与される記載箇所に関する条件付き確率の一覧であって、各単語の前後関係及び各文脈に対し、付与される前記タグの種別と付与される確率とを対応付けた条件付き確率の一覧を生成する学習工程と、
を含んだことを特徴とする学習方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018174531A JP7135641B2 (ja) | 2018-09-19 | 2018-09-19 | 学習装置、抽出装置及び学習方法 |
US17/272,700 US20210342521A1 (en) | 2018-09-19 | 2019-09-04 | Learning device, extraction device, and learning method |
PCT/JP2019/034864 WO2020059506A1 (ja) | 2018-09-19 | 2019-09-04 | 学習装置、抽出装置及び学習方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018174531A JP7135641B2 (ja) | 2018-09-19 | 2018-09-19 | 学習装置、抽出装置及び学習方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020046909A JP2020046909A (ja) | 2020-03-26 |
JP7135641B2 true JP7135641B2 (ja) | 2022-09-13 |
Family
ID=69887359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018174531A Active JP7135641B2 (ja) | 2018-09-19 | 2018-09-19 | 学習装置、抽出装置及び学習方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20210342521A1 (ja) |
JP (1) | JP7135641B2 (ja) |
WO (1) | WO2020059506A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6902814B1 (ja) * | 2021-02-25 | 2021-07-14 | アミフィアブル株式会社 | テスト支援システム、テスト支援方法及びプログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005292958A (ja) | 2004-03-31 | 2005-10-20 | National Institute Of Information & Communication Technology | 教師データ作成装置およびプログラム、言語解析処理装置およびプログラム、ならびに要約処理装置およびプログラム |
JP2018045559A (ja) | 2016-09-16 | 2018-03-22 | 富士通株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8176046B2 (en) * | 2008-10-22 | 2012-05-08 | Fwix, Inc. | System and method for identifying trends in web feeds collected from various content servers |
US9165085B2 (en) * | 2009-11-06 | 2015-10-20 | Kipcast Corporation | System and method for publishing aggregated content on mobile devices |
US9384678B2 (en) * | 2010-04-14 | 2016-07-05 | Thinkmap, Inc. | System and method for generating questions and multiple choice answers to adaptively aid in word comprehension |
US20130149681A1 (en) * | 2011-12-12 | 2013-06-13 | Marc Tinkler | System and method for automatically generating document specific vocabulary questions |
US9594872B2 (en) * | 2012-10-25 | 2017-03-14 | Intelligent Medical Objects, Inc. | Method and system for concept-based terminology management |
JP2017513134A (ja) * | 2014-04-02 | 2017-05-25 | セマンティック テクノロジーズ ピーティーワイ リミテッド | オントロジーマッピング方法及び装置 |
JP2017521748A (ja) * | 2014-05-12 | 2017-08-03 | セマンティック・テクノロジーズ・プロプライエタリー・リミテッド | 推定オントロジを生成する方法及び装置 |
US9402161B2 (en) * | 2014-07-23 | 2016-07-26 | Apple Inc. | Providing personalized content based on historical interaction with a mobile device |
-
2018
- 2018-09-19 JP JP2018174531A patent/JP7135641B2/ja active Active
-
2019
- 2019-09-04 WO PCT/JP2019/034864 patent/WO2020059506A1/ja active Application Filing
- 2019-09-04 US US17/272,700 patent/US20210342521A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005292958A (ja) | 2004-03-31 | 2005-10-20 | National Institute Of Information & Communication Technology | 教師データ作成装置およびプログラム、言語解析処理装置およびプログラム、ならびに要約処理装置およびプログラム |
JP2018045559A (ja) | 2016-09-16 | 2018-03-22 | 富士通株式会社 | 情報処理装置、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20210342521A1 (en) | 2021-11-04 |
JP2020046909A (ja) | 2020-03-26 |
WO2020059506A1 (ja) | 2020-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113110988B (zh) | 利用定义的输入格式来测试应用 | |
EP2664997B1 (en) | System and method for resolving named entity coreference | |
US7610191B2 (en) | Method for fast semi-automatic semantic annotation | |
US20230351212A1 (en) | Semi-supervised method and apparatus for public opinion text analysis | |
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
US8301435B2 (en) | Removing ambiguity when analyzing a sentence with a word having multiple meanings | |
US20140163951A1 (en) | Hybrid adaptation of named entity recognition | |
US10503830B2 (en) | Natural language processing with adaptable rules based on user inputs | |
US7299228B2 (en) | Learning and using generalized string patterns for information extraction | |
CN111177375A (zh) | 一种电子文档分类方法及装置 | |
JP7135641B2 (ja) | 学習装置、抽出装置及び学習方法 | |
JP5317061B2 (ja) | 単語間の意味的関係の有無についての、複数言語での同時分類器及びそのためのコンピュータプログラム。 | |
WO2019085118A1 (zh) | 基于主题模型的关联词分析方法、电子装置及存储介质 | |
CN112667208A (zh) | 翻译错误识别方法、装置、计算机设备及可读存储介质 | |
JP7135640B2 (ja) | 学習装置、抽出装置及び学習方法 | |
JP2000040085A (ja) | 日本語形態素解析処理の後処理方法および装置 | |
US20220075950A1 (en) | Data labeling method and device, and storage medium | |
JP7135730B2 (ja) | 要約生成方法及び要約生成プログラム | |
US7657422B2 (en) | System and method for text analysis | |
CN113886559A (zh) | 针对黑盒文本分类模型的对抗文本生成方法、系统及介质 | |
Niekler | Text Mining in Evaluation | |
Langlais et al. | Issues in analogical inference over sequences of symbols: A case study on proper name transliteration | |
CN112733517A (zh) | 需求模板符合性检查的方法、电子设备及存储介质 | |
KR20080049764A (ko) | 주석화된 코퍼스의 분할화 오류를 탐지하는 방법 | |
WO2022091422A1 (ja) | 推定装置、推定方法、および、推定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220513 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220815 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7135641 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |