JP5366810B2 - 自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法 - Google Patents
自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法 Download PDFInfo
- Publication number
- JP5366810B2 JP5366810B2 JP2009528700A JP2009528700A JP5366810B2 JP 5366810 B2 JP5366810 B2 JP 5366810B2 JP 2009528700 A JP2009528700 A JP 2009528700A JP 2009528700 A JP2009528700 A JP 2009528700A JP 5366810 B2 JP5366810 B2 JP 5366810B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- meaningful
- definition
- graph
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Description
テキストからテキスト・データを受信するステップと、
受信データの文法的分析を介して、テキストから構文と有意味の単語を抽出するステップと、
テキストの有意味の単語のうちの少なくとも一部ごとに、少なくとも1つの電子辞書を用いてその単語の定義を検索するステップと、その定義の構文と有意味の単語を抽出するステップと、およびその定義の基本の語彙グラフをその定義の構文と有意味の単語に基づいて作成するステップと、
テキストの構文に応じて、テキストの少なくとも1つの意味グラフを作成するために、作成された基本の語彙グラフのうちの少なくとも2つを統合するステップとを含む。
本発明の方法は、統合するステップの前に、抽出されたテキストの構文と有意味の単語に基づいてテキストの有意味の単語間の関係を抽出するステップをさらに含み、統合するステップは、テキストの有意味の単語間のこれらの関係に基づく。
抽出する第1ステップが、そのテキストの文法的構造の文法的分析による抽出をさらに含み、前記構造が1つまたは複数の文法グループを含み、1つまたは複数の抽出された文法グループごとに少なくとも1つの意味グラフを作成するために、統合するステップが前記抽出された文法グループにさらに基づく。
本発明の方法が、テキストの有意味の単語ごとに、前記少なくとも1つの辞書を用いてその単語の同義語とそれらの同義語の定義を検索するステップをさらに含み、統合するステップが同義語の定義に応じてさらに行われる。
本発明の方法が、統合するステップの前に、有意味の単語ごとに発見された同義語を、その有意味の単語とその同義語の定義に応じて分類するステップをさらに含み、統合するステップが、同義語の分類結果に応じてさらに行われる。
本発明の方法が、作成された前記少なくとも1つの意味グラフに関連付けられていない構成要素を削除するステップをさらに含む。
それぞれのステップが、テキスト・データを受信するステップとは別に、テキスト・データを受信するステップ後に「オン・ザ・フライ」で行われる。
前記少なくとも1つの意味グラフが、OWLまたはRDFなどのXMLに基づいて言語に形式化される。
テキスト・データがサービス問い合わせのテキストに対応する。
「I want」(グループ1)
「French translation」(グループ2)
「CNN news」(グループ3)
がある。次いで、文法的グループごとに少なくとも1つの意味グラフ60を作成するために、抽出された文法的グループに基づいて統合(ステップS400)が試みられる。そうすると、グループにつき少なくとも1つの意味グラフが得られる。これは、文法的グループが首尾一貫した概念を通常反映するという点でいっそう好都合であり、文法的グループのオブジェクトは相補的または関連付けられている。抽出された文法的構造は、語句、命題などに関連付けられた情報をさらに含むことができる。特に、統合を徐々に進行させるために、文法的グループ間の関連を使用できる。したがって、文法的構造に関する情報が統合の構築を支援する。
Claims (11)
- 自然言語のテキスト(10)のオントロジ(70)を開発するための、コンピュータによって使用される方法であって、
該テキスト(10)からテキスト・データを受信するステップと、
該受信データの文法的分析(S100)によって、該テキストから構文と有意味の単語M(20)を抽出するステップと、
該テキストの該有意味の単語M(20)のうちの少なくとも一部の各々について、少なくとも1つの電子辞書(30)を用いてその有意味の単語M(20)の定義(40)を検索するステップ(S200)と、該定義の構文と有意味の単語mを抽出するステップと、少なくとも1つの電子辞書(35)を用いて、該有意味の単語M(20)のうちの少なくとも一部の各々の同義語(45)とそれらの同義語の定義を検索するステップと、及び該有意味の単語M(20)のうちの少なくとも一部の各々の定義の該構文と該有意味の単語mに基づいて、その定義の基本の語彙グラフ(50)を作成するステップ(S300)とを含み、該基本の語彙グラフ(50)は、該有意味の単語M(20)の少なくとも一部の各々の該同義語を含み、
該テキストの少なくとも1つの意味グラフ(60)を作成するために、該テキストの該構文及び該同義語の該定義に応じて、作成された該基本の語彙グラフ(50)のうちの少なくとも2つを統合するステップ(S400)とを含む方法。
- 請求項1に記載の方法において、
該統合するステップ(S400)の前に、抽出された該テキストの該構文と該有意味の単語に基づいて、該テキストの該有意味の単語間の関係を抽出するステップをさらに含み、該統合するステップが該テキストの有意味の単語間のこれらの関係に基づく方法。
- 請求項1に記載の方法において、
該テキストから構文と有意味の単語M(20)を抽出するステップが、該テキストの文法的構造の該文法的分析(S100)による該抽出をさらに含み、該構造が1つ又は複数の文法的グループを含み、
1つ又は複数の抽出された文法的グループの各々について少なくとも1つの意味グラフ(60)を作成するために、該統合するステップ(S400)が該抽出された文法的グループにさらに基づく方法。
- 請求項1に記載の方法において、
該統合するステップの前に、
有意味の単語ごとに発見された該同義語を、その有意味の単語とその同義語の該定義に応じて分類するステップをさらに含み、
該統合するステップが、該同義語の該分類結果に応じてさらに行われる方法。
- 請求項1に記載の方法において、
作成された該少なくとも1つの意味グラフ(60)に関連付けられていない構成要素を削除するステップ(S500)をさらに含む方法。
- 請求項1に記載の方法において、
それぞれの該ステップ(S100〜S400)が、該テキスト・データを受信する該ステップとは別に、該テキスト・データを受信する該ステップ後に「オン・ザ・フライ」で行われる方法。
- 請求項1乃至6のいずれか1項に記載の方法において、
該少なくとも1つの意味グラフ(60)が、OWL又はRDFなどのXMLに基づいて言語に形式化される方法。
- 請求項1に記載の方法において、
該テキスト・データがサービス問い合わせ(10)のテキストに対応する方法。
- ウェブ・サービスを検索する方法であって、
請求項8に記載の該方法によって作成された該少なくとも1つの意味グラフ(60)を受信するステップと、
受信された該少なくとも1つの意味グラフに応じてウェブ・サービスを検索するステップを含む方法。
- 請求項1乃至9のいずれか1項に記載の該方法の該ステップを実行できるように適合された、コンピュータ・プログラム。
- 請求項1乃至9のいずれか1項に記載の該方法の該ステップを実行できるように適合された、コード手段を含む電子データ処理システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0653814 | 2006-09-19 | ||
FR0653814A FR2906049A1 (fr) | 2006-09-19 | 2006-09-19 | Procede, mis en oeuvre par ordinateur, de developpement d'une ontologie a partir d'un texte en langage naturel |
PCT/EP2007/059795 WO2008034802A1 (en) | 2006-09-19 | 2007-09-17 | Method, used by computers, for developing an ontology from a text in natural language |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010503937A JP2010503937A (ja) | 2010-02-04 |
JP5366810B2 true JP5366810B2 (ja) | 2013-12-11 |
Family
ID=37900527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009528700A Expired - Fee Related JP5366810B2 (ja) | 2006-09-19 | 2007-09-17 | 自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US8417512B2 (ja) |
EP (1) | EP1903454A1 (ja) |
JP (1) | JP5366810B2 (ja) |
KR (1) | KR101416682B1 (ja) |
CN (1) | CN100576201C (ja) |
FR (1) | FR2906049A1 (ja) |
WO (1) | WO2008034802A1 (ja) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2105847A1 (en) * | 2008-03-27 | 2009-09-30 | Alcatel Lucent | Device and method for automatically generating ontologies from term definitions contained into a dictionary |
US20100175054A1 (en) * | 2009-01-06 | 2010-07-08 | Katarina Matusikova | System and method for transforming a uml model into an owl representation |
FR2944633A1 (fr) * | 2009-04-15 | 2010-10-22 | Alcatel Lucent | Procede d'assistance au developpement ou a l'utilisation d'un systeme complexe. |
KR101306667B1 (ko) * | 2009-12-09 | 2013-09-10 | 한국전자통신연구원 | 지식 그래프 정제 장치 및 방법 |
CN101763342B (zh) * | 2009-12-31 | 2012-07-04 | 中兴通讯股份有限公司 | 生成计算机代码的方法及自然语言解释中心和应用控制端 |
US9713774B2 (en) | 2010-08-30 | 2017-07-25 | Disney Enterprises, Inc. | Contextual chat message generation in online environments |
US9684885B2 (en) * | 2011-01-17 | 2017-06-20 | Infosys Technologies, Ltd. | Method and system for converting UBL process diagrams to OWL |
US9552353B2 (en) | 2011-01-21 | 2017-01-24 | Disney Enterprises, Inc. | System and method for generating phrases |
US9245253B2 (en) | 2011-08-19 | 2016-01-26 | Disney Enterprises, Inc. | Soft-sending chat messages |
US9176947B2 (en) * | 2011-08-19 | 2015-11-03 | Disney Enterprises, Inc. | Dynamically generated phrase-based assisted input |
CN102591988B (zh) * | 2012-01-16 | 2014-10-15 | 西安电子科技大学 | 基于语义图的短文本分类方法 |
US9165329B2 (en) | 2012-10-19 | 2015-10-20 | Disney Enterprises, Inc. | Multi layer chat detection and classification |
KR101286296B1 (ko) * | 2012-11-29 | 2013-07-15 | 김건오 | 워드그래프 관리 방법 및 시스템 |
US10303762B2 (en) | 2013-03-15 | 2019-05-28 | Disney Enterprises, Inc. | Comprehensive safety schema for ensuring appropriateness of language in online chat |
US10742577B2 (en) | 2013-03-15 | 2020-08-11 | Disney Enterprises, Inc. | Real-time search and validation of phrases using linguistic phrase components |
US9519461B2 (en) | 2013-06-20 | 2016-12-13 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on third-party developers |
US9633317B2 (en) | 2013-06-20 | 2017-04-25 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on a natural language intent interpreter |
US9594542B2 (en) * | 2013-06-20 | 2017-03-14 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on training by third-party developers |
US10474961B2 (en) | 2013-06-20 | 2019-11-12 | Viv Labs, Inc. | Dynamically evolving cognitive architecture system based on prompting for additional user input |
CN103473222A (zh) * | 2013-09-16 | 2013-12-25 | 中央民族大学 | 一种藏语语义本体创建及词汇扩充方法 |
US9547641B2 (en) * | 2013-09-26 | 2017-01-17 | International Business Machines Corporation | Domain specific salient point translation |
WO2015093651A1 (en) * | 2013-12-19 | 2015-06-25 | Twinword Inc. | Method and system for managing a wordgraph |
US9390196B2 (en) * | 2014-06-03 | 2016-07-12 | International Business Machines Corporation | Adjusting ranges of directed graph ontologies across multiple dimensions |
CN106372053B (zh) * | 2015-07-22 | 2020-04-28 | 华为技术有限公司 | 句法分析的方法和装置 |
CN106980624B (zh) * | 2016-01-18 | 2021-03-26 | 阿里巴巴集团控股有限公司 | 一种文本数据的处理方法和装置 |
JP6784084B2 (ja) * | 2016-07-27 | 2020-11-11 | 富士通株式会社 | 符号化プログラム、符号化装置、符号化方法、及び検索方法 |
CN110709828A (zh) * | 2017-06-08 | 2020-01-17 | 北京嘀嘀无限科技发展有限公司 | 使用条件随机域模型确定文本属性的系统及方法 |
TWI705338B (zh) * | 2018-06-14 | 2020-09-21 | 大陸商北京嘀嘀無限科技發展有限公司 | 使用條件隨機域模型確定文本屬性的系統及方法 |
CN108984666B (zh) * | 2018-06-29 | 2022-05-13 | 阿里巴巴集团控股有限公司 | 数据处理方法、数据处理装置和服务器 |
FR3087555A1 (fr) * | 2018-10-18 | 2020-04-24 | Meremind | Dispositif de traitement automatique de texte par ordinateur |
US11934441B2 (en) | 2020-04-29 | 2024-03-19 | International Business Machines Corporation | Generative ontology learning and natural language processing with predictive language models |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5995922A (en) * | 1996-05-02 | 1999-11-30 | Microsoft Corporation | Identifying information related to an input word in an electronic dictionary |
US5933822A (en) * | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6778970B2 (en) * | 1998-05-28 | 2004-08-17 | Lawrence Au | Topological methods to organize semantic network data flows for conversational applications |
JP2003228580A (ja) * | 2002-02-04 | 2003-08-15 | Celestar Lexico-Sciences Inc | 文献知識管理装置、文献知識管理方法、プログラム、および、記録媒体 |
EP1460562A1 (en) * | 2002-12-23 | 2004-09-22 | Definiens AG | Computerized method and system for searching for text passages from text documents |
US7546234B1 (en) * | 2003-01-08 | 2009-06-09 | Xambala, Inc. | Semantic processing engine |
GB2412451A (en) * | 2004-03-26 | 2005-09-28 | Magenta Corp Ltd | Automated text analysis |
WO2006013233A1 (fr) * | 2004-07-01 | 2006-02-09 | France Telecom | Procede et dispositif de traitement automatique d’un langage |
-
2006
- 2006-09-19 FR FR0653814A patent/FR2906049A1/fr not_active Withdrawn
-
2007
- 2007-09-13 CN CN200710154061A patent/CN100576201C/zh not_active Expired - Fee Related
- 2007-09-17 WO PCT/EP2007/059795 patent/WO2008034802A1/en active Application Filing
- 2007-09-17 KR KR1020097005662A patent/KR101416682B1/ko not_active IP Right Cessation
- 2007-09-17 JP JP2009528700A patent/JP5366810B2/ja not_active Expired - Fee Related
- 2007-09-17 EP EP07116563A patent/EP1903454A1/en not_active Withdrawn
- 2007-09-18 US US11/857,420 patent/US8417512B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR101416682B1 (ko) | 2014-07-08 |
CN100576201C (zh) | 2009-12-30 |
EP1903454A1 (en) | 2008-03-26 |
FR2906049A1 (fr) | 2008-03-21 |
KR20090069275A (ko) | 2009-06-30 |
WO2008034802A1 (en) | 2008-03-27 |
JP2010503937A (ja) | 2010-02-04 |
US8417512B2 (en) | 2013-04-09 |
CN101149732A (zh) | 2008-03-26 |
US20080071521A1 (en) | 2008-03-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5366810B2 (ja) | 自然言語のテキストからオントロジを開発するための、コンピュータによって使用される方法 | |
US12050874B2 (en) | System for knowledge acquisition | |
Gangemi et al. | Semantic web machine reading with FRED | |
KR101139903B1 (ko) | 자연어 문서들에서 전체 부분 관계들을 인식하는 시만틱 프로세서 | |
US8041697B2 (en) | Semi-automatic example-based induction of semantic translation rules to support natural language search | |
US20050138556A1 (en) | Creation of normalized summaries using common domain models for input text analysis and output text generation | |
KR101709055B1 (ko) | 오픈 웹 질의응답을 위한 질문분석 장치 및 방법 | |
EP1835417A1 (en) | Web service with associated lexical tree | |
Kumar et al. | Automated ontology generation from a plain text using statistical and NLP techniques | |
KR101016110B1 (ko) | 온톨로지 프로퍼티를 이용한 온톨로지 인스턴스 추출시스템 및 그 방법 | |
Bourahma et al. | Syntactic parsing of simple Arabic nominal sentence using the NooJ linguistic platform | |
JP2008077512A (ja) | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム | |
Jolly et al. | Anatomizing lexicon with natural language Tokenizer Toolkit 3 | |
JP4635585B2 (ja) | 質問応答システム、質問応答方法及び質問応答プログラム | |
Mutawa et al. | An HPSG approach to Arabic nominal sentences | |
Room | Chomsky Hierarchy | |
Osenova et al. | Bulgarian-english question answering: Adaptation of language resources | |
Reitter et al. | Hybrid natural language processing in a customer-care environment | |
Hakenberg et al. | Molecular event extraction from Link Grammar parse trees in the BioNLP’09 Shared Task | |
Huang et al. | Asian language processing: current state-of-the-art | |
Vagelatos et al. | Implementing the NLP infrastructure for Greek Biomedical Data Mining | |
Simov et al. | An XML architecture for shallow and deep processing | |
Gupta et al. | Automatic Creation of an Ontological Knowledge Base from Grid and Cloud-based Wikipages | |
Gupta | Web services query matchmaking with automated knowledge acquisition | |
Nugues et al. | Partial Parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100630 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120704 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20121004 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20121012 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130104 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130514 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130719 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130813 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130910 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |