CN1628298A - 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法 - Google Patents

综合从搜索系统中使用的文档中抽取知识的自学习系统的方法 Download PDF

Info

Publication number
CN1628298A
CN1628298A CNA028290321A CN02829032A CN1628298A CN 1628298 A CN1628298 A CN 1628298A CN A028290321 A CNA028290321 A CN A028290321A CN 02829032 A CN02829032 A CN 02829032A CN 1628298 A CN1628298 A CN 1628298A
Authority
CN
China
Prior art keywords
text
sentence
index
random index
request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA028290321A
Other languages
English (en)
Other versions
CN100392644C (zh
Inventor
弗拉迪米尔·叶夫根尼耶维奇·涅博利辛
加林娜·阿纳托列夫纳·纳瑟普纳亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VLADIMIER YEFGENIYEVICHI NIEBO
Original Assignee
VLADIMIER YEFGENIYEVICHI NIEBO
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VLADIMIER YEFGENIYEVICHI NIEBO filed Critical VLADIMIER YEFGENIYEVICHI NIEBO
Publication of CN1628298A publication Critical patent/CN1628298A/zh
Application granted granted Critical
Publication of CN100392644C publication Critical patent/CN100392644C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

本发明涉及计算机科学,信息搜索和智能系统,适合于开发基于因特网的信息搜索以及其他信息和智能系统。本发明通过从不同语言的原文文档中抽取知识自动创建知识;智能处理文本信息和用户请求以抽取任意外语中的知识。根据权利要求的方法提供人工智能的随机索引系统形式的自学习机制,在语法和语义分析规则方面对系统进行自动指导。该方法包括创建随机索引的字典的数据库,语言文本的索引表和形态分析的知识库;进行形态和句法分析,对指定语言的搜索系统中的指定主题关联的原文文档进行随机索引处理,创建句法分析的知识库。语义分析与指定主题有关的随机索引原文文档,创建语义分析的知识库。编辑用户请求,把随机索引形式的用户请求转换为与原始请求相同的众多新请求;选择包含转换后的请求的所有单词组合的原文文档的随机索引片段。根据选定文档生成随机索引结构,基于所述结构,借助逻辑结论,生成系统的简短回复。通过基于所述回复生成疑问句,并比较所述句子和该请求,检查获得的简短回复的关联性。当用户请求与获得的疑问句相同时,确定系统的简短回复与该请求相同,并向用户提交回复。

Description

综合从搜索系统中使用的文档中 抽取知识的自学习系统的方法
技术领域
本发明涉及计算机科学,信息搜索和智能系统。
本发明适合于开发基于因特网的信息搜索以及其他信息和智能系统。
背景技术
目前,因特网聚集了与众多论题和题目有关的大量永久更新的信息。但是数百万用户对其的访问却是错综复杂的。原因是搜索系统中的数据检索的现有技术效率不足。用于Yandex,Yahoo和Rambler搜索系统的数据检索方法是公知的。上述公知方法输出因特网用户请求的文档。
公知数据检索方法的缺点是:
-请求形式化语言的复杂性;
-缺少对文档内容进行语义分析的机制和确定与询问的问题相适应的机制;
-不能准确确定搜索文档中存在用户请求所需的信息,不能从大量信息源中抽取用户所需的特定信息和知识。
由于上述缺点,当随同有用信息一起执行信息搜索过程时,输出现有搜索系统无法过滤的大量冗余“噪声”信息。从而大大增加了搜索所需信息所需的时间,同时由于传送和处理无用信息的缘故,使得搜索系统的通道和服务器过载。
主要困难在于,向搜索系统发送请求的用户获得并不包含所需数据的大量信息。从而必需复核收到的每篇文档以确定是否包含所需数据。导致时间和脑力劳动的不必要浪费。由于不能从大量因特网数据组中实时获取用户解决特定问题所需的特定数据和知识,所以大大降低了搜索系统的知识价值和效率。
以下专著描述了在智能信息逻辑计算系统中实现的从数据库中抽取用于请求的知识和数据的公知方法:Nasypny V.V.,Development ofa theory of open systems design on the basis of artificial intelligenceinformation technology,Moscow,1994(pp.85-112)。该方法基于随机信息技术,通过使用逻辑结论提供有效的知识搜索和知识的实时处理。其优点是,与常规人工智能系统中使用的现有知识处理方法相反,该方法一方面提供搜索时间和逻辑处理之间的线性关系,另一方面,该方法提供准备回复所需的大量知识。然而,所述方法不允许从文档中抽取知识,因为该方法旨在处理知识库中的形式化信息,而该处理是由具有相关知识的专家和工程师完成的。由于上述缺点,所以所述方法不能在现有信息搜索系统中从文档中抽取知识。
以下专著描述了从文档中抽取知识的另一种公知方法:Nasypny V.V.,Nasypnaya G.A.,Construction of an intelligent informationsearch system,Moscow,Promethey-Publisher,2001。所述方法基于随机智能信息技术,该技术能够对大量文档信息进行实时形态、句法和语义分析。该系统可以与现有信息搜索系统一起运行,作为所述系统上的智能上层结构,同时通过使用用于文档的随机索引的特有标准,信息交换协议和用户请求处理,提供下一代搜索系统。与现有搜索系统中实现的方法相比,所述方法的主要优点如下:
-用自然语言处理用户请求;
-检索包含与用户请求有关的所有信息的文档;
-突出显示与用户请求相对应的文本片段,后者包含解决特定问题所需的各种论题的数据和知识。
所述方法的主要缺点是,供形态、句法和语义分析使用的智能系统的知识库是由专家填写的,从而需要大量时间和科技费用。因此,为满足其因特网上有全国性子系统的发达国家的用户的需求而创建从文档中抽取知识的类似系统需要大量时间。所以所述方法不能用来创建从文档中抽取知识的基于因特网的多语言系统。该障碍严重阻碍向知识产业的转变,知识产业基于全国性的文本信息搜索系统,并且考虑到文明社会的最新需求,知识产业将在工业、科学、教育、文化和家庭活动等不同领域中,在质量上提供全新的信息服务。
不能自动分析字典中不包括的新词是所述方法的另一个缺点。当文档中出现新词时,专家必需确定新词所属的引语部分,并确定其形态特征。鉴于此,该系统不能自动进行调整以处理与新题目有关的文档。请注意,有效抽取知识要求通过使用片段之间的语义关系的逻辑结论进行分析,通过等效转换指定文本的句子,全面处理不同文档的文本片段。而所述方法尚未实现此功能。
发明内容
本发明的目的在于提供用于综合从搜索系统的文档中抽取知识的自学习系统的方法,该方法用于创建基于全球因特网的知识产业,并能克服上述缺点。通过实施本发明获得以下效果:
-通过从采用不同语言的电子形式的文档中抽取知识自动创建知识,以便填充知识库;
-自动更新新词,并更新字典;
-等效转换用户请求和文档的句子,以提高知识抽取的效率;
-在语法和语义分析的规则方面对所述系统进行自我指导;
-智能处理文本信息和用户请求以抽取指定外语中的知识。
利用用于综合从搜索系统使用的文档中抽取指定自然语言的知识的自学习系统的方法,实现本发明的目的,该方法包括以下步骤:
提供随机索引人工智能系统形式的自学习机制,该系统基于随机信息索引的二态信号的唯一组合的应用;
通过使用随机索引的文本片段和逻辑结论的等效转换,通过根据所述片段形成链接的语义结构并对其进行随机索引处理以便用产生式规则进行表示,在语法和语义分析规则方面对系统进行自动指导;
执行形态分析并对所述语言的电子形式的语言文档进行随机索引处理,同时在形态分析规则方面对系统进行自动指导;
执行形态和句法分析,并对所述语言中与指定主题有关的电子形式的文档进行随机索引处理,同时在句法分析规则方面对系统进行自动指导;
对与指定主题有关的电子形式的随机索引的文档进行语义分析,同时在语义分析规则方面对系统进行自动指导;
用指定的自然语言形成用户请求,并且在随机索引处理后将电子形式的请求变换为疑问句;
把随机索引形式的用户请求变换为与所述用户请求等效的一组新请求;
根据用户请求初步选择包含所述新请求的所有单词组合的电子形式的原文文档的随机索引片段;
根据所述原文文档的随机索引片段生成随机索引语义结构;
根据所述结构,利用提供原文文档的随机索引片段之间的链接的逻辑结论,该系统生成一个简短回复,和文本的等效转换;
通过根据所述简短回复生成一个疑问句,并比较生成的疑问句和用户请求,检查所述简短回复和用户请求的关联性;
其中当生成的疑问句和用户请求相同时,确认所述简短回复和用户请求关联,并用指定自然语言向用户提供所述简短回复。
利用用于综合从搜索系统使用的文档中抽取任何指定自然语言的知识的自学习系统的方法,实现本发明的目的,该方法包括以下步骤:
提供随机索引的人工智能系统形式的自学习机制,该系统基于随机信息索引的二态信号的唯一组合的应用,用于随机索引处理和搜索指定基础语言中的语言文本片段,包括语法和语义分析过程的描述,通过使用随机索引的语言文本片段和逻辑结论的等效转换,通过根据所述片段形成链接的语义结构并对所述结构进行随机索引处理以便用产生式规则进行表示,在语法和语义分析规则方面对系统进行自动指导;
执行形态分析并对指定基础语言的电子形式的语言文档进行随机索引处理,同时在形态分析规则方面对系统进行自动指导,构建用于搜索每门指定外语的随机索引的字典数据库和语言文本索引表,以及形态分析的知识库,后者包含基础语言和每门指定外语的产生式规则;
从搜索系统中执行形态和句法分析,在每门外语中,在指定主题上,对电子形式的文档进行随机索引处理,把所述文档表示为原文文档的索引表,然后在随机索引的文本库中存储所述文档,同时通过使用基础语言中的随机索引的语言文本,在句法分析规则方面对系统进行自动指导,并构建基础语言和每门指定外语的句法分析知识库;
在指定主题上,对于电子形式的所述随机索引的原文文档进行语义分析,同时在语义分析规则方面对系统进行自动指导,并构建基础语言和每门指定外语的语义分析知识库;
用自然语言形成用户请求,并且在随机索引处理后将电子形式的请求变换为疑问句,后者包含确定用户请求的语义的疑问词组合和单词组合;
把随机索引形式的用户请求变换为与所述用户请求等效的一组新请求;
根据用户请求初步选择包含所述新请求的所有单词组合的电子形式的原文文档的随机索引片段;
根据所述原文文档的随机索引片段生成随机索引语义结构;
根据所述结构,利用提供原文文档的随机索引片段之间的链接的逻辑结论,该系统生成一个简短回复,和文本的等效转换,其中回复包含定义用户请求之语义的随机索引的单词组合,以及与用户请求的疑问词组合相对应的回复词组;
通过利用对应的随机索引的疑问词组合替换回复词组,并比较生成的疑问句和用户请求,检查所述简短回复和用户请求的关联性;
其中当生成的疑问句和用户请求相同时,确认所述简短回复和用户请求关联,并用指定外语向用户提供所述简短回复。
该方法最好还包括,当不能生成与用户请求相同的疑问句时,请求从搜索系统的新原文文档中搜索与用户请求有关的回复。
另外,依据用户请求,借助逻辑结论可以生成包含更详细信息或特定知识的完整回复以形成随机索引的逻辑结构,以及所述原文文档片段的必要等效转换,以便获取提供所述简短回复的更详细内容的新的随机索引的文本。
在该方法中,在形态分析规则方面对系统进行自动指导的步骤最好包括,在随机索引的文本中选择每个单词的词形的预定集合,提供词干的随机索引和根据随机索引的语言文本的所述索引进行随机访问的词尾、前缀、后缀和介词的预定集合,从中选择把词尾、前缀、后缀和介词的所述集合和与某个单词相对应的引语部分联系起来的片段,以及和由单词的词尾变化或动词变化引起的词尾、前缀、后缀和介词的全集关联的片段,通过随机索引把所述片段变换为产生式规则形式,其中以对应语言文本的若干片段为基础,利用自主推导提供每条规则的正确性,以及获取形态分析的知识库的产生式规则的索引表。
在使用形态分析的知识库的规则确定每个单词的引语部分后,语言文本的随机索引处理步骤最好包括,利用每个词干的随机索引和其词尾、前缀、后缀和介词的全集的随机索引填充字典随机索引数据库,构建文本索引表的步骤包括,随机转换信息并生成词干、其词尾、前缀、后缀、介词、句子、段落和文本标题的索引的唯一的二态组合,其中把索引放置到随机索引的文本库的索引表中,以及提供所述索引之间的链接,链接是原文规定的,并且通过使用索引表能够确保文本复原。
在该方法中,在句法分析规则方面对系统进行自动指导的步骤包括,在随机索引的语言文本中,搜索用于描述句子的句法分析过程的片段;取得逻辑结论以获取用来定义句法元素、结构和单词的预定引语部分之间的链接的随机索引的语义结构;导出用来规定有关形态单词特征的句子的句法分析的产生式规则,其中根据对应语言文本的若干片段的自主推导提供每条规则的正确性,把生成的规则存储到句法分析的知识库中,进行随机索引处理并用索引表表示。另外,在语义分析规则方面对系统进行自动指导的步骤还包括,参考词干和引语部分的随机索引形成语言文本的索引表的请求,未准确定义的句子成分,获取一个回复作为用于描述单词处理的语义特征的文本片段,以符合特定句子成分;以及根据所述回复,通过使用指定词干的随机索引和所需的语义特征,访问通用或专用字典和百科全书的索引表;以及依据逻辑结论,尝试确定用来链接指定单词和所需的语义特征的随机索引的语义结构;以及如果上述尝试成功,则确定所述句子成分是准确定义的;把与请求有关的文本片段转换为产生式规则,其中基于对应语言文本的若干片段的自主推导提供每条规则的正确性,把所述规则存储到语义分析的知识库中,进行随机索引处理并用索引表表示,以便在语义分析单词的句子成分和单词组合之间的链接时使用。
该方法还包括,在生成每个文本的索引表并对所述文本进行形态、句法和语义分析后,生成引语部分名称的随机索引,句子成分和与每个句子中的每个单词相对应的疑问句,把所述索引输入到所述文本的索引表中,以便在搜索文本片段时,自动确定每个单词所属的引语部分和句子成分,并说明所述单词的疑问句;另外,在生成文本的所有索引表后,生成指定主题的索引表,其中利用词干的非重复的随机索引指定各行,各列对应于特定文本的随机索引;以及把包含特定词干索引的单词的文本段落的随机索引输入到所述表中,指定主题的索引表用于初步搜索包含用户请求的单词组合的预定集合的片段。
在该方法中,等效转换用户请求的步骤最好包括,使用同义词,即大约具有相同含义的词,并且以形态、句法和语义分析的随机索引规则为基础,在保留用户请求的含义的情况下替换引语部分和句子成分,以便提供用户请求的疑问句的单词组合的等效结构,并保持它们之间的语义关系;生成包含用户请求的所有单词组合的语义链接文本片段的步骤包括,根据所述词干的随机索引,访问有关指定主题的文本索引表,选择包含用户请求的所有单词组合的段落和对应文本的随机索引,根据所述索引,访问每个选定文本的索引表;根据索引表和文本的等效转换获得逻辑结论,以便生成用来链接语用户请求的疑问词组合相对应的回复的词组的索引的随机索引语义结构,以及定义用户请求的语义并且由预先选择的段落组成的用户请求的所有单词组合。
此外,该方法最好还包括,使用根据逻辑结论生成的与用户请求相对应的随机索引语义结构,作为使用获得的文本片段集合生成与用户请求相同的疑问句的基础;基于所述知识库中的规则,利用词干和词尾、前缀、后缀和介词的随机索引的等效转换生成所述疑问句,以便提供用户请求的文本片段的每个单词组合的所需语义特征,以及基于单词组合之间的传递关系,使用逻辑结论以便将它们组合为与用户请求相同的包含回复词组的疑问句,回复词组与用户请求的疑问词组合相对应;其中以原文文档的各种预先选择的随机索引片段为基础,通过生成所述回复的若干相同的随机索引语义结构来保证简短回复的正确性。
另外,该方法最好包括,在搜索处理和使用原文文档的索引表生成回复期间,通过生成链接该请求和有关简短回复的索引原文元素,系统进行自学习,以生成包含类型“请求回复”的元素的知识库,进行随机索引时,以索引表的形式提供,用于文本的句子的语法和语义分析,用于生成所述索引知识库中包含的重复请求的回复;其中以简短回复为基础,借助获取文本片段时使用的索引表相应的逻辑结论,生成包含有关用户请求的知识的完整回复的步骤包括,生成用来把回复的词组链接到句子的词干的随机索引的随机索引语义结构,该链接保持传递关系,后者完全公开文本片段内的简短回复,从而通过以所述随机索引的语义结构为基础使用句子的等效转换,获得完整回复的链接文本。
在该方法中,随机索引的片段的等效转换最好包括,把每个句子表示为随机索引的单词词组的集合,借助公根词干、词尾、前缀、后缀和介词的随机索引的等效转换,通过使用形态、句法和语义知识库中存储的规则,转换所述组合,以生成新的引语部分或句子成分,其中在生成新的文本片段时,保持每个句子的随机索引语义结构中的单词组合之间的链接的稳定性,以及句子之间的一致性。
另外,在原文文档的随机索引处理中,当索引文本中出现新词时,即随机索引单词的字典或语言文本中不包含该词时,该方法最好包括,在字典中检索有关新词公根词,在形态分析的知识库中检索把所述公根词等效转换为新词的规则;依据等效转换类型,确定新词所属的引语部分以及由词尾变化或动词变化生成的所有词形,
如果在字典中找不到公根词,则从文本中选择新词的词形的特定集合,通过使用随机索引字典或形态分析的产生式规则,基于所述词形的词尾、后缀和前缀,确定所述新词所属的引语部分,以及由词尾变化或动词变化生成的词形的全集。
此外,该方法提供从指定外语的原文文档中抽取知识,对于指定的基础语言,在形态、句法和语义分析规则方面自动指导系统;通过使用指定基础语言的随机索引语言文本,构建随机索引字典的数据库以及形态、句法和语义分析的知识库;通过使用所述库,自动生成采用任意指定语言的系统自动指导请求,根据所述请求,初步选择基础语言中的语言文本片段,该片段包含学习所述外语所需的知识,对所述文本进行等效转换;生成随机索引语义结构,在所述结构上获得逻辑结论,以便生成与自动生成的请求相关的回复,使用所述请求以生成任意指定外语的形态、句法和语义分析的知识库,确保从指定外语的原文文档中抽取知识。
附图说明
利用图1所示的示例和以下表格进一步解释本发明,图1表示从搜索系统的原文文档中抽取知识的智能自学习系统的框图,所述表格为:
表1—句子构架;
表2—文本索引;
表3—与指定题目有关的文本索引。
具体实施方式
按如下方式定义描述中使用的术语:
知识库—一个或多个特殊排列的文件,用于存储与某一题目有关的概念、规则和事实的系统集合。
疑问词组合是具有疑问代词或副词作为与单词组合中的主导词(名词或动词)关联的疑问词的单词组合。
语法分析—形态和语义分析。
知识是原文文档中未明确包含的新的文本信息,该信息是系统使用等效转换和逻辑结论(回复)自动生成的,该信息与用户请求有关,用于解决与该请求相对应的问题。
语言文本是供学习指定语言的教育方法,科学,参考(参考字典,百科全书)和其他文本。
逻辑结论是处理知识的技术,该技术模拟智力推理过程,并且基于语言单位,允许综合具有明确含义的语义结构。
形态分析是句子单词的分析研究,目的是确定形态成分,各个单词的特征的细节涉及一个或另一个引语部分;从而首先确定单词的永久形态特征,该特征不依赖于其在句子中的位置;然后分析与其词尾变化或动词变化有关的单词的语法形式。
词干是表示其词汇意义的单词部分;有词尾变化和动词变化的单词有词干和词尾,其他类型的单词只有词干。
搜索系统是能够自动搜索有关关键字、题目等信息的系统。
产生式规则是诸如复杂句“如果(条件),则(结论)”之类的知识表示形式,其中条件包括包含指定专题领域中对象之间的断言关系和其他关系的不同单词组合,并且用逻辑“and”连接;结论包括定义语义结果的单词组合或单词组合的集合,如果条件的所有单词组合为真,则结果为真或开始操作。
关联是确定文档满足用户请求规定的标准的程度的度量。
语义结构是不同句子的独立语言单位相对于它们之间的关系类型的关系形式,该结构表示所分析的文本的明确语义。
语义分析是独立语言单位的含义、重要性的分析,语言单位为:单词,句子的单词组合,与专题领域的对象和实际现象之间的特定种类的关系的相互相互关系。
句法分析是句子的分析研究,用于确定其句法构成,单词的特征的分类,单词组合,其类型,单词组合和句子中的单词之间的关系的种类,句子的结构,句子的结构类型。
人工智能系统是一个软/硬件系统,其基础部分包括逻辑结论子系统,知识库,以及其他人工智能软/硬件装置;目的是支持人类的智力活动或取代控制过程中的操作员。
词的词尾变化是按格修改名词(对于大部分名词,还要按单/复数进行修改),对于形容词和其他受支配词,按性修改。
单词组合是基于相关关系(即,呼应,支配或连接),基于所述关系引起的词汇语法关系,由两个或多个单词构成的句法句法单位。
词形是指定语法形式中存在的单词。
词的动词变化是相对于人称,数,时态和词尾变化,修改动词;在单数形式的过去时和虚拟语气中,还要按性修改。
等效转换是利用另一个语言单位替换各个独立的语言单位,但保持句子语义结构内或文本的一组句子中的关系,该句子能够表示相同语义。
利用图1所示的结构示例和用于抽取搜索系统的知识的智能自学习系统(ISLSEK),详细说明权利要求提出的方法的实施方式。人工智能的随机索引系统包括:
-多语言处理器(1);
-对原文文档进行随机索引处理并选择文本片段的子系统(2);
-控制自我指导和知识抽取模式的子系统(3);
-随机索引的文本和产生式的解释器(4);
-文本的等效转换子系统(5);
-逻辑结论子系统(6);
-基础词和新词的随机索引字典的数据库(7);
-随机索引的语言文本的数据库(8);
-“请求回复”知识库(9);
-与指定主题有关的随机索引的原文文档的数据库(10);
-外来词的随机索引字典的数据库(11);
-形态分析的知识库(12);
-句法分析的知识库(13);
-语义分析的知识库(14);
-随机索引的单词组合的数据库(15)。
所述系统基于使用符号信息的随机转换和索引处理,用来控制自我指导模式的产生式规则的索引表的编辑,以及文本索引。根据随机索引,通过使用从选定的文本片段中抽取知识以及用产生式规则表示知识或提供用户请求之回复的随机索引规则,该系统提供对文本信息片段,逻辑结论和文本的等效转换的访问。
通过创建ISLSEK,提供以语言文本为基础,在文本信息的形态、句法和语义分析规则方面对系统进行自我指导的机制。所述文本包括通用字典,专用字典,同义词字典,参考字典,与指定语言的语法有关的教育方法课本。
用户通过多语种语言处理器1与系统通信。语言处理器1输入用自然语言书写的用户请求,输出系统生成的回复。可采用任意指定语言实现用户和系统之间的信息交换。语言处理器1在自我指导和知识抽取模式控制子系统3的控制下,提供与ISLSEK相连的搜索系统的交互。交互的目的在于,在子系统3的控制下输入与某个主题有关的指定语言的搜索系统中的新的原文文档,以便进一步处理。同时,多语种语言处理器1采用电子形式将指定语言的语言文本输入到该系统中。
在编辑基础字典并将所述字典输入到基础词和新词的随机索引字典的数据库7期间,在自我指导和知识抽取模式控制子系统3的控制下,实现语言文本的形态分析以及在形态分析规则方面对系统进行的自我指导。在使用对原文文档进行随机索引处理并选择文本片段的子系统2对语言文本做索引时,执行上述功能。
为编辑随机索引的基础字典,使用电子形式的通用字典,后者是经由多语种语言处理器1输入到系统中的。根据所述字典的指定词形,确定每个单词的引语部分,其词干和词尾集合。使用对原文文档进行随机索引处理并选择文本片段的子系统2对词干进行随机索引,把所述词干存储到词干索引栏目中随机索引的基础字典表中的基础词和新词的随机索引字典的数据库7中。
作为所述字典的单词的上述处理的结果,多语种语言处理器1生成所有单词的词干的随机索引和词干本身,同时把词尾集合存储到基础词和新词的随机索引字典的数据库7中。
基础词和新词的随机索引字典的数据库7中存储的随机索引基础字典具有许多表格格式,每个对应于明确的引语部分。表格的标题包括由形态特征名称(性,数,格,人称,时态等)组成的单元格,以及与指定单词的词形对应的疑问句,词形是指定单词的词尾变化或动词变化时生成的。一个词干对应于由单词的所述词形的词尾组成的一行。请注意,在开始填充随机索引的基础字典的表格时,只知道每个单词的很少词形,即通用单词字典中提供的词形。用于填充随机索引的基础字典的表格的其他词形及其词尾、后缀和前缀,是在开始对适当的语言文本做索引后在形态分析方面对系统进行自我指导时确定的。
该机制的主要原理是使用对原文文档进行随机索引处理的全新方法,该方法是在对原文文档进行随机索引处理并选择文本片段的子系统2中实现的。该过程基于符号信息的随机转换功能,以及词干、句子、段落和包含参考书目提要的原文文档之标题的独特二元组合形式的随机索引的生成。符号信息的随机转换,词干的随机索引{I ξi (u)},句子的随机索引{Iξi (p)},段落的随机索引{Iξi (a)}和所处理文本的标题的随机索引{Iξi (t)}的生成,与每个句子的框架(表1)和指定文本的索引表(表2)的生成是同时进行的。
在对原文文档进行随机索引处理并选择文本片段的子系统2中创建的所述框架(表1),包括十级(行)插槽(单元格)。插槽单元格是在对文本进行随机索引处理期间,在每个句子的形态、句法和语义分析期间填充的。
在语言文本的随机索引处理期间,第一级插槽中书写的是词干的随机索引{Iξij (u)}和其词尾。第二级插槽包含与第i个句子中的顺序相应的单词。把介词、虚词、连词和标点符号与其关联的单词的插槽中。为了填充第三级插槽,使用第一级插槽中书写的词干的随机索引{Iξij (u)}和其词尾。
根据词干索引,访问随机索引的基础字典的对应表格的各行,利用用于确定与指定单词关联的引语部分相同索引来标识各行。把来自基础词和新词的随机索引字典的数据库7的所述信息,写入到与第二级插槽中的单词对应的句子框架的第三级插槽中。
把引语部分的特征写入到框架的第三级插槽中,在对文本进行形态分析和句法分析期间,填充第四至第十级插槽,同时在形态分析和句法分析规则方面对系统进行指导。以下详细说明该过程。
以填充前四级插槽的文本句子框架为基础,对原文文档进行随机索引处理并选择文本片段的子系统2生成指定文本的索引表。
表2表示索引表,其中利用词干的随机索引{Iξi (u)}标识各行;按照在文本中的出现顺序,利用段落索引{Iξj (a)}标识各列,位于行列交叉点的单元格包含列表索引{Iξij (s)}。把列表{Iξij (s)}中指定的信息写入到独立文件中,通常包括以下数据:
{Iξij (p)}是包含指定单词的句子的索引;
Ni (n)是包含指定单词的句子的数目;
(uiuj)是指定单词在句子(Iξi (p)Ni (n))中的词尾;
Iξj-1 (u)是文本的句子或段落中的前一个单词的索引,其中
如果Iξj (u)是句子(段落)的第一个单词,则索引Iξj-1 (u)后跟一个句号。Iξj-1 (u)对应于指定段落或前一段落内的前一个句子的最后一个单词。如果Iξj-1 (u)后跟一个逗号,意味着Iξj (u)引起分词或副动词结构,从句或复杂句内的简单句;
Iξ(j+1) (u)是句子、段落、文本内的后续单词的索引,从而如果
Iξj (u)是句子(段落)的最后一个单词,则Iξj-1 (u)之前有一个句号;
Iξj-1 (u)对应于引起该段落或下一段落中的新句子的单词。如果Iξj-i (u)前有逗号,意味着Iξj (u)可以结束副动词,分词结构,或复杂句内的简单句;
Iξj (vu)是关于句子成分的指定单词的疑问句的索引;
Iξj (pu)是与指定单词关联的句子成分的标识的索引;
Iξj (vpru)是引起Iξj (u)的副动词或分词结构或从句相对应的疑问句的索引;
Iξj (pru)是引起Iξj (u)的副动词或分词结构或从句相对应的句子成分的标识的索引;
所述索引和符号对应于Iξj (a)段落的一个Iξj (p)句子中有Iξi (u)词干的单词,并且具有预定格式,后者定义指定组内的索引和符号的位置。如果索引不存在,则在对应位置插入一个“空”标记。如果Iξi (a)段落的n个{Iξi (p)}句子中包含指定单词Iξi (u),则列表内所述组的数量也是n。
请注意,Iξij (s)列表的前六个索引是在文本的随机索引处理期间生成的。因此,根据词干索引Iξi (u),通过访问随机索引的基础字典,总能确定与指定单词有关的引语部分。在形态分析和句法分析期间填充文本的句子框架的第四至第十级插槽,然后确定列表Iξij (s)的剩余数据,其中在句子的语法分析规则方面对系统进行自我指导时进行上述分析。
在所有语言文本(包括由句子的语法分析的描述组成的文本)的随机索引处理后,把所述文本存储到随机索引的语言文本的数据库8中,该方法继续推导文本的形态分析规则,同时填充基础词和新词的随机索引字典的数据库7。
因此,从包含与指定引语部分有关的词干的随机索引的基础字典的每个表格中,选择每个词干以及其词尾或介词的预定集合的随机索引。接着,根据所述索引访问随机索引的语言文本的数据库8,以选择使得所述引语部分索引和所述词尾或介词的集合与词尾变化或动词变化生成的对应词尾、介词或疑问句的全集相互关联的文本片段。然后,把该文本片段输入到随机索引的文本和产生式规则的解释器4中,其中生成随机索引的语义结构,作为所述片段包含的每个句子的单词组合的集合:
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}    (1)其中Iξi (u)Iξj (u)分别是单词组合的单词的主词干和次词干的随机索引;Iξi (z)Iξj (z)分别是所述单词组合的主导词和从属词的引语部分的形态特征的随机索引;→标记确定该单词组合的主导词和从属词之间的关系。
式(1)表示的每个随机索引的语义结构的主链接是动词,后者确定指定结构模式内的关系的语义。由不同句子组成的不同随机索引的语义结构1中的关系存在,前提是它们有相同的单词组合,同义词,主导词重复或用于与第一个句子的某一单词组合相应的代词的第二个句子,以及与主导词组合中的代词。由此找到句子或句子的一部分,其中由索引的初始请求组成的随机索引的语义结构与具有回复的索引数据的随机索引的语义结构相关。为确定动词语义,根据动词词干的随机索引,访问随机索引的语言文本的数据库8,以访问同义词字典的索引表。
如果第一和第二语义结构经由需要定义其引语部分的单词组合互连,并且与引语部分关联的动词的含义和请求的动词或推测的回复相同或意思相同,则所述结构进入文本的等效转换子系统5。子系统5把两个所述语义结构转换为产生式规则的单一随机索引语义结构,该结构具有包含请求和结论(回复)的条件。所述随机索引语义结构通常表示为:
P:Iξ1 (su)ΛIξ2 (su)ΛIξ3 (su)Λ...Λ Iξm (su)
Iξ1 (su)Λ Iξ2 (su)ΛIξ3 (su)Λ...Λ Iξn (su)    (2)其中Iξ1 (su)是来自式(1)的对应单词组合Iξi (su):(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))的随机索引,在普通逻辑意义上,把解释为从式(2)的左部的条件中推导出式(2)的右部的逻辑结论的标记,前提是条件的所有单词组合为真(符合请求的初始数据)。请注意,根据上述过程并且基于从对应语言文本中选择的片段的数目,通过单独生成相同的随机索引的语义结构(2),来保证每条规则的正确性。
把利用式(2)表示的等效转换子系统5导出的每条产生式规则,传送到随机索引的文本和产生式的解释器4,以便把式(2)转换为产生式的文本格式,即格式“If(条件),then(结论)”。把索引形式的导出规则传送到形态分析的知识库12。以下详细说明用于综合包含随机索引规则的知识库的过程。
在填充基础词和新词的随机索引字典的数据库7时导出对文本进行形态分析的规则,第一个随机索引的语义结构(1)包括词干的随机索引,该索引表示引语部分和词尾或介词的预定集合。经由相同的引语部分索引,把第二结构(2)链接到第一结构,并确定由引语部分的词尾变化或动词变化生成的词尾、介词、疑问句的全集。
根据上述过程,通过访问与随机索引的语言文本的数据库8的语言文本相应的同义词字典的索引表,检查第一和第二语义结构的动词的语义与请求和推测的回复的一致性。接着,确定链接第一和第二结构的单词组合。如果结果是肯定的,则把所述文本片段的两个部分传送到文本的等效转换子系统5,然后传送到随机索引的文本和产生式的解释器4。因此,把所述文本片段转换为利用“如果(条件),则(结论)”表示的产生式规则格式。规则条件包括与引语部分关联的单词组合索引,以及字典格式中提供的、确定单词词尾变化或动词变化时修改词形的词尾和介词的预定集合。结论包括作为对应引语部分的单词的词尾变化或动词变化生成的词尾、介词和疑问句的全集。把公式化的产生式规则写到形态分析的知识库12中。在导出用于确定引语部分的规则后,在自我指导和知识抽取模式控制子系统3的控制下,该过程转到综合公根词的等效转换规则的步骤。为此使用形态分析的知识库12中存储的用于引语部分转换的通用规则,基于随机索引的基础字典的表格,基于另一个公根引语部分选择具体说明某一引语部分的形成过程的合适的语言文本:
“如果一个引语部分需要变换为另一个,则首先分离出第一个引语部分的词干,然后访问随机索引的基础字典格式,从而找到其词干具有包含该词根(可能是两个词根,可能带有前缀,可能有修改,添加,不包括某些浊音和辅音)的通用部分的第二引语部分,带有第一引语部分词干;在分离出词根后,使用引语部分的词干,分离出后缀;接着,通过访问有关引语部分词干的随机索引的语言文本索引表,选择描述将引语部分转换为另一个引语部分的适当方法的片段;通过访问字典格式,确定关于第一引语部分的词干的第二引语部分词干的形成方式(替换,删除,添加后缀);接着,确定替换引语部分的方法是否与根据第一引语部分形成第二引语部分所需的方法相对应;在肯定情况中,采用第二引语部分作为新生成的引语部分。”
作为使用一般规则转换特定单词的一部分,以一般规则为基础导出相应的特定规则,特定规则规定根据另一个引语部分形成某个引语部分的转换后的引语部分,后缀和方法。这发生在随机索引的文本和产生式的解释器4中和文本的等效转换子系统5中。上述过程首先把指定片段转换为产生式规则(2)的单一随机索引语义结构,接着转换为“如果(条件),则(结论)”形式的产生式格式。在随机索引处理后,把该规则输入到形态分析的知识库12中。
在对下一篇原文文档做索引时,如果出现基础字典中找不到其词干的新词,则该方法转到定义新词的引语部分以及定义词尾变化或动词变化生成的词尾的过程。
首先,为了定义新词所属的引语部分,从文本中选择该词的至少两个不同词形;通过比较这些词形,确定新词的不变部分(可能是词干)及其词尾。接着,确定基础字典格式是否包含其词根(可能带有前缀)与新词相同的单词。词根是通根词(包括至少两个字母,包括一个浊音)的词干的公共不可见部分,通过对该部分添加前缀、后缀和词尾,形成公根引语部分。根据该过程,通过比较新词词干和从基础字典格式中取得的单词词干,直至找到两个比较单词(新词和基础字典的下一个单词)的公共不可见部分,从而分离出公根。
然后,访问形态分析的知识库12,以便选择用来确定与新词关联的引语部分的规则。为此,应用相称的等效转换规则。
为了使用等效转换规则确定新词的引语部分,假设所述等效转换一般规则中的第二引语部分与新词有关并且是已知的;与其有公根的第一引语部分已经在字典中找到,因此是已知的。接着,通过使用该规则描述的转换,检查是否能够根据已知的引语部分导出未知引语部分的新词的词干。因此,应用根据一般规则导出的形态分析的知识库12包含的一系列特定规则,以便将已知引语部分转换为其他引语部分。如果通过应用某条规则导致新词的词干,则该词所属的引语部分成为已知的,并且对应于该规则中规定的第二引语部分。通过使用形态分析的知识库12的产生式规则,能够更详细地确定每个引语部分的特征。例如,在对俄文进行形态分析时,形态分析的知识库12的规则不仅能够确定新词的引语部分,而且能够确定名词的词尾(实词,形容词),主格,单数,从而所述规则能够确定与新词有关的词尾变化类型(1,2,3)。在实词,形容词,序数,某些类型的代词和介词的情况中,能够准确确定词尾变化生成的词尾的全集。此时,对于所述引语部分,能够在字典格式中找到其主格、单数的结尾与新词的结尾相同的对应单词。所述引语部分的词尾的全集对应于新词的词尾的集合,其中与词干一起把词尾输入到新词字典格式中。然后,形成词干的随机索引,将生成的新词特征写入到新词字典格式中。
如果新词为动词,则在根据上述过程分离出其词干并访问形态分析的知识库12之后,通过使用适当规则确定并找到其引语部分和不定式。基于不定式的后缀(-Tb或-TИ),通过访问基础字典格式,找到具有相同不定式后缀(-Tb或-TИ)的动词。采用由动词变化生成的输入到字典格式中的动词的词尾的全集,作为推测的新词的词尾的全集。为了更准确地确定动词变化类型(1,2),为了确定词尾的全集,在文本索引处理期间找到其动词具有第三人称复数形式的句子,即,具有用复数名词(代词)表示实词的句子,从而与具有人称后缀“-yT/-ЮT”(第一动词变化)或“-aT/-ЯT”(第二动词变化)的所述动词表示的谓词协调一致。根据所述动词的人称后缀,在字典格式中找到具有相同的第三人称复数词尾的动词。采用该动词的词尾的全集作为新词的词尾的全集,并与其词干一起写到新词字典格式中。在形成新的动词词干的随机索引后,把所有所述信息写入到新词字典格式中。
在文本索引处理期间,如果出现的新词的不同词形未出现在基础词和新词的随机索引字典的数据库7中,则通过比较对原文文档进行随机索引处理并选择文本片段的子系统2中的所述词形,分离出新词词干及其词尾的特定集合。然后,形成新词词干的随机索引,与其词尾一起输入到基础词和新词的随机索引字典的数据库7中的新词字典格式中。在处理该词的词形的所述集合后,字典格式已经接纳各类词尾,访问索引的基础字典表格。经过填充的所述字典包括通用单词的索引和词干,和不同引语部分的各种词尾,与指定单词有关的由词尾变化或动词变化生成的类型,以及引语部分特征的标识。有关字典的请求包括单词的词干的随机索引,词干本身,以及各种可用词形词尾。在基础词和新词的随机索引字典的数据库7中,通过使用字典格式,找到其词尾与词尾全集内的词尾相同的单词。这意味着新词属于与字典中具有相同词尾的单词相同的引语部分。在确定新词的引语部分后,把请求中包含的所有信息输入到与建立的格式相应的新词字典中。同时,根据上述过程,随机索引的文本和产生式的解释器4和文本的等效转换子系统5,首先把所述片段转换为产生式规则的单一的随机索引语义结构(2),然后转换为“如果(条件),则(结论)”形式的产生式规则格式。
因此,导出产生式规则,其条件包括词尾的预定集合,结论包括条件引用其词尾的单词的引语部分的名称;同时,在字典格式中,词尾的全集定义由单词的词尾变化或动词变化生成的词形的修改。当同样有词尾变化或动词变化时,结论还包括引语部分的词形的疑问句,根据字典格式确定的过程排列疑问句。
因而,在处理包含不同词形的新词的文本时,自动确定新词的引语部分,并把新词输入到基础词和新词的随机索引字典的数据库7中的字典格式中,并在形态分析规则方面对系统进行指导。将这些规则存储到形态分析的知识库12中,根据以下过程对其进行随机索引处理,并与随机索引的基础字典格式一起使用,以确定新词的引语部分和特征,如果该单词不在新词字典格式中的话。
在对语言文本进行形态分析和随机索引处理后,在创建形态分析的知识库12,随机索引的语言文本的数据库8和基础词和新词的随机索引字典的数据库7后,该方法对与指定主题有关的文本进行随机索引处理,同时在句法分析规则方面对系统进行指导。
在控制自我指导和知识抽取模式的子系统3的控制下,通过在随机索引的语言文本的数据库8中搜索用来定义句子句法分析过程的片段,在句法分析规则方面对系统进行自动指导。首先,把与上述过程相应的片段转换为产生式规则的随机索引语义结构的集合,通常具有式(2)的形式。
逻辑结论子系统6通过使用获得的描述句子句法分析过程的产生式规则的随机索引语义结构(2),实现逻辑结论,以生成新的产生式规则的随机索引语义结构。在基于单词形态特征导出用来规定句子句法分析的产生式规则期间,这些语义结构把句法元素链接到预定的引语部分。把导出的规则存储到随机索引的用索引表表示的句法分析数据库12中。
如上所述,句法分析以确定其执行过程开始,该过程是在与指定语言的语法有关的教育方法原文文档中描述的。为了从所述文本中抽取定义句法分析过程的知识,控制自我指导和知识抽取模式的子系统3首先编辑随机索引的语言文本的数据库8的请求,以访问教育方法课本的索引表。根据包含指定语言的“句法分析过程”的所述请求,在所述文本中查找包含所述短语的段落和定义句法分析过程的项。
在处理适当教育方法辅助材料的文本片段后,生成以下产生式规则,例如,对于俄语:
“如果某个句子需要进行语法分析,则句法分析过程如下:单词组合(复杂或复合关系),简单句(实词,谓词,定语,宾语,副词),简单句的类型(陈述句,疑问句,祈使句),句子结构(一个或两个成分,引伸或不引伸),谓词(简单,复合动词,复合名词),具有相似成分的句子,具有独立成分的句子,直接引语句子,复杂句,具有一个从句的复合句,具有几个从句的复合句,不带连词的复杂句,具有不同关系种类的复杂句”。在基于单词组合的索引{Iξi (su)}将该规则公式化为式(2)后,形成产生式规则本身{Iξi (pp)}的随机索引,作为预定长度的独特的二元组合:
Iξi (su)=F(Iξ1 (su)ΛIξ2 (su)Λ...ΛIξm (su)Iξ1 (su)Λ Iξ2 (su)Λ...ΛIξn (su))    (3)
F是产生式规则的随机转换的函数。
然后,通过编辑随机索引的语言文本的数据库8的请求,依次公开产生式规则(3)的结论中提及的每一项。结果为定义规则Iξi (pp)包含的每个句法项的众多{Iξij (pp)}规则。通过使用条件或结论中的相同句法项的产生式规则之间的关系,子系统6实现逻辑结论。由此形成以下产生式规则的逻辑关系序列:
Iξi (pp)→{Iξi1 (pp)}→{Iξi2 (pp)}→{Iξi3 (pp)}→{Iξik (pp)}    (4)
这里,索引{Iξij (pp)}把与某层句法分析有关的规则集表示为规则Iξi (pp)中的预定规则。例如,可以为单词组合(复杂或复合关系),简单句(实词,谓词,定语,宾语,副词)简单句的类型(陈述句,疑问句,祈使句)等。
因此,该系统实现演绎逻辑结论,其目的在于把句法项连接到特定单词的引语部分,其特征,并且在所述规则下执行连续不断的句法分析。例如,对于俄语,在所述逻辑结论中,对于“实词”项,可以找到以下文本片段:“可以用以下单词表示句子中的实词:主格形式的名词,主格形式的代词,不定式,单一单词组合”。把获取的文本片段传送到解释器4,文本的等效转换子系统5和逻辑结论子系统6。所述转换通过使用式(2),提供把单词形态特征链接到句子成分的名称的产生式规则集:
“如果句子具有作为主格名词的单词,则该单词可能为实词”。
“如果句子具有作为主格代词的单词,则该单词可能为实词”。
“如果句子具有作为不定式的单词,则该单词可能为实词”。
“如果句子具有作为单一单词组合的单词,则该单词可能为实词”。
在抽取文本片段以形成用来定义任意单词组合和独立句子成分的产生式规则时,句子单词的形态特征充当初始信息。根据所述初始信息,选择文本片段,其中通过相同单词组合,把所述信息链接到引用句子成分名称的可能回复。这些单词组合对应于具有初始形态特征的单词。
因此,可以把定义带有指定形态特征的单词和句子成分之间的关系的选定文本片段,传送到随机索引语义结构(2),前提是保证上述过程的正确性。接着,用“如果(条件),则(结论)”格式的产生式规则表示随机索引语义结构(2)。通过使用解释器4,文本的等效转换子系统5和产生式规则,执行所述过程。规则条件包括初始单词形态特征,其结论包括与该单词相应的句子成分的名称,和与该单词相应的疑问句。
因此,导出产生式规则,以便确定主要句子成分(实词和谓词),从属句子成分(定语,宾语,副词),及其单词组合。通过确定谓词确定其类型:简单,动词,复合名词。首先,确定句子的表语成分,其中实词和谓词配合,同时确定其他单词组合和与其对应的关系。包括实词和定语,谓词和宾语,谓词和副词等。
于是,在文本信息处理期间,在进行句子句法分析时,在确定主句成分和从句成分的规则方面对系统进行自我指导。把导出的规则存储到句法分析的知识库13中。接着,根据句法分析过程,该系统自我指导用于确定独立句子成分的规则。这里,初始数据为:引语部分,句子成分及其特征,其中在文本转换后,包含到产生式规则的条件中。规则的结论定义独立成分的分组类型,句子成分的名称和与其相应的疑问句。
因此,描述独立的一致的定语(分词结构,带有从属词的形容词),独立的不协调的定语,独立同位语,独立宾语,独立副词,包括与其相应的疑问句。
此后,自我指导模式推导产生式规则,基于初始数据对简单句进行句法分析,确定指定句子中的单词的句子成分,它们构成的单词组合以及独立的句子成分组。结果为产生式规则,用于确定指定句子为两个复合句还是为单句(如果是单句,确定该句子关联的类型:不定人称的,无人称的,主格的等)。因此,选择带有类似成分的句子,独立的句子成分,直接引语句。
然后,基于选择的文本片段,导出用于复杂句的句法分析的规则。此时,产生式规则包含的初始数据为复杂句中包含的简单句的类型和特征。规则的结论允许确定指定复杂句关联的类型:复杂句,有一个从句的复合句,有许多从句的复合句,不带连词的复杂句,具有各种关系类型的复杂句。同时,规则的结论定义与指定复杂句内的简单疑问句相应的疑问句。
生成产生式规则的上述层次符合句子分析模式,其中按照逻辑表达式(4),根据自我指导和知识抽取模式控制子系统3的指令,在开始自我指导时配置以上模式。
把通过实现自我指导获取的产生式规则存储到句法分析的知识库13中。请注意,在通过分析每个句子相对于指定题目处理初始数据时,在句子句法分析规则方面对系统进行自我指导。所述分析允许填充文本的每个句子的框架的第五至第十级,反过来利用该框架填充指定文本的索引表(表2)以及作为每个单元格的内容的上述列表。然后,对句法分析的知识库进行随机索引处理,并用索引表表示。由于根据与产生式规则相应的条件的索引进行随机访问以获取搜索结果,所以能够显著提高句子分析的效率。
以下为对知识库进行随机索引处理并用于句子的语法分析的过程的详细描述。
在生成知识库后,知识库为“如果(条件),则(结论)”格式的随机索引的文本表示的产生式规则的集合,把每条产生式规则传送到随机索引的文本和产生式的解释器4。这里,再次建立随机索引的语义结构(2),该结构包括指定规则的所有单词组合:
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}  (5)
为每个单词组合指派相应的索引Iξi (su)
(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))接着,基于所述索引,根据式(3),形成每条产生式规则Iξi (pp)的唯一的随机索引。
另外,类似于常规原文文档的索引,生成指定知识库的索引表。作为段落,采用的是具有索引Iξi (pp)的产生式规则。因此,进入产生式规则索引表的项目为产生式规则字典的单词的{Iξi (u)}词干组成的行(产生式规则包含的许多非重复词干)。与某个索引(Iξi (u))对应的行的每个单元格包括单词组合的索引Iξi (su)和包含指定单词的规则索引(Iξi (pp)),产生式规则中的单词的词尾和数字,以及指定规则中的前一个单词的索引(Iξi-1 (u))和后一个单词的索引(Iξi+1 (u))。与原文文档的情况类似,允许基于索引编辑产生式规则的文本。把表达式
Iξi (u):(Iξi (u)Iξi (r)Iξi (z)→(Iξj (u)Iξj (r)Iξj (z))作为表格的行写入到随机索引的单词组合数据库15中。
用于访问产生式规则文本的索引的初始数据是从分析后的句子框架中取得的。如上所述,形态分析后的框架有四行,包括词干的索引{Iξi (u)},句子上下文的单词,与指定单词相对应的引语部分和特征,以及它们的疑问句。该信息的各种组合均包含在产生式规则条件中,并以逻辑结论为基础,确定(精确或近似)与指定引语部分关联的句子成分。根据句子框架的词干的索引{Iξi (u)},以及规则的条件或结论的单词组合的值{Iξi (su)},访问产生式规则索引表。
为了使用产生式规则执行逻辑结论功能,使用随机索引的文本和产生式的解释器4。因此,把产生式规则转换为随机索引的语义结构(2)。根据产生式规则条件的单词组合(Iξi (su))(在根据Iξi (su)索引访问随机索引的单词组合的数据库15后,在确定指定单词组合的词干的随机索引{Iξi (u)}后),可以检索句子框架的对应单元格,并从所述单元格中读出单词的名称,引语部分的特征及其疑问句。根据结论的单词组合{Iξi (su)},填充句子框架的第五至第十级单元格,后者确定句子成分的名称,其分组,独立成分,复杂句中的简单句的类型,以及其疑问句。因此,相对于条件的所有单词组合检查产生式规则;如果用逻辑“and”连接的所有条件的单词组合均为真(并找到产生式规则条件单词组合描述的所有特征和数据),则认为该条件为真。把在规则条件单词组合中确定的数据输入到句子框架的第五至第十级单元格中。如果结论有一个初步结果或单词组合,据此找到逻辑上连接的规则,则通过相对于单词组合的词干的索引访问相应知识库的索引表搜索它们。由于基于随机索引随机访问表格,所以无需审查产生式规则的全部集合。因此,能够保证取得逻辑结论的时间和参与处理的产生式规则的数目之间的线性依存关系。访问知识库和处理产生式规则的目的是用正确数据填充句子框架的所有单元格。
如果句法分析不能准确确定某些句子成分,则为了准确确定,该系统继续对句子的单词进行语义分析,同时在语义分析规则方面对系统进行自我指导。首先,确定带有介词的名称或副动词等表示的实词,定语和副词。
为了准确确定句子成分,使用基于ISLSEK导出的功能的语义分析并从文本中选出段落和句子,文本描述各种对象之间的各种类型的关系。该系统请求执行该功能,当句法分析不能准确确定引语部分在所考虑的句子中的句子成分时,在自我指导和知识抽取模式控制子系统3中自动生成所述功能。
为此使用自我指导和知识抽取模式控制子系统3,逻辑结论子系统6和随机索引的文本和产生式的解释器4。当句法分析不能准确确定时,通过从许多文本中选择描述预定对象之间的关系的句子,通过确定它们之间的关系类型,准确确定句子成分。通过使用随机索引的文本的解释器4,自动生成的系统请求和选定句子的语义分析可以确定预定对象之间的以下类型的关系:
-性;
-集合(部分—整体);
-宾语关系;
-定义关系;
-状语;
-允许,不允许。
把状语关系细分为以下种类:
-方式;
-地点;
-时间;
-量度或程度;
-原因;
-目的;
-条件;
-让步。
在文本中,利用每个句子的表语库描述对象之间的所述关系,表语库由实词和谓词组成,同时利用不同句子成分之间的单词组合,首先利用描述带有副词的谓词的关系(状语)或带有宾语的谓词的关系(宾语关系)的单词组合。为了对关系类型分类,由谓词和与其关联的宾语或副词组成的单词组合扮演决定角色。依据所述两个句子成分的内容,确定实词和宾语或副词规定的主题宾语之间的指定句子中存在的关系的类型。定语关系使用一致或不一致定语组成的单词组合描述实词,并与或副词的属性。在分析句子成分时,对关系类型的分类能够定义最复杂的情况(句法分析不能提供准确结果)中的句子成分。
为了对单词组合中的关系类型分类,根据控制子系统3发出的指令,从随机索引的语言文本的数据库8参考字典的索引表中,向解释器4中写入上述关系的典型单词组合的随机索引。在语义分析期间,通过使用与参考字典文本的索引表相应的逻辑结论,通过生成随机索引的语义结构,把研究的每个单词组合和写入到解释器4中的一个单词组合联系起来。在用于建立系统回复的随机索引语义结构的过程的描述中,解释根据文本的索引表导出逻辑结论的过程。
通常,使用以下五个信息源用于单词和单词组合的语义分析:-知识库9,包含“请求回复”类型的文本元素,是在操作ISLSEK处理典型请求期间形成的(以下详细解释所述数据库);
-随机索引的语言文本的数据库8,包含参考字典,百科全书以及通用和专用基础科学方法参考文献的索引表,能够抽取有关指定主题的对象及其关系类型的知识;
-语义分析的知识库14,包含准确确定句子成分的规则,用于确保语义分析所需的句子成分的等效转换,并评价生成的输入请求的回复的关联性;以下详细说明所述知识库;
-形态分析的知识库12,包括用于确定引语部分及其等效转换的规则;
-句法分析的知识库13,包括用于确定引语部分及其等效转换的规则。
第一个所述知识库是基于处理用户请求期间生成的随机索引的简短回复创建的,包括“请求回复”类型的许多文本元素。该知识表示用户请求的有关回复的语义基础,并且包括疑问句。一个句子相当于一个用户请求,在疑问词(或疑问短语)后,句子还包括与其相应的回复词组。词组包括一个或多个单词组合,表示独立的句子成分或从句分组。在所述知识的每个元素中,准确确定回复词组的疑问句,以便对指定句子表示的主题对象之间的关系分类,由此确定指定回复词组中的主导词的句子成分。
利用众多随机索引的文本,参考字典,百科全书,通用和专用基础科学教育参考文献,表示语言文本的数据库。包括通用词汇和指定主题的专用术语的详细描述。利用用索引表表示的文本资料抽取其中包含的知识,通过把它们和上述分类系统联系起来,刻画指定题目中不同主题的主要属性和它们之间的关系。
语义分析的知识库14由产生式规则组成,该规则的自动导出的,通过使用前两个知识库包含的逻辑结论和信息,对文本进行语义分析。
在语义分析中,利用形态分析和句法分析的知识库对文本进行等效转换。以下详细说明等效转换处理。
为了确保知识的合理处理,把所述第一数据库表示为索引表,其条目包括“请求回复”知识陈述的单词的词干。表格的每一行有许多单元格,包括文本索引,作为表达指定句子的基础的段落索引和段落号,句子内的许多单词,单词的词尾;以及句子的前一个单词和后一个单词的索引。通过使用词干索引,利用系统的请求随机访问对应表格的各行,从中分离所需的单元格,如果需要的话,复原对应“请求回复”的原文。
在句子的语法分析中,所述知识库能够确定最复杂情况中的句子成分,例如,通过准确分类,区别动词的直接宾语或间接宾语。为此,语义分析系统生成知识库的适当请求。在第一种情况中,当需要确定实词时(例如在句子The rain soaked the umbrella或The umbrella therain soaked中),根据系统的请求确定其宾语,获得谓词表示的关系。因此,采用与允许关系相对应的宾语作为实词。
如果知识库不能提供所述请求的答案,则问题指向与指定主题有关的文本的索引表,以便在有关该题目的第二知识库的所有原文文档中,查找包含对象之间的所需关系的单词组合。
在第二种情况中,以知识库的系统请求为基础,确定被认为是宾语和副词的句子成分回答的问题,由此确定指定单词句子成分。为此,在知识库的系统请求中,提及所需单词和推测答案。如果知识库有相应的“请求回复”,其中在回复单词组合中主导词和疑问句与系统请求的内容一致,意味着所分析的句子成分准确回答该问题。这里,系统请求处理的所述结果能够准确确定特定单词的句子成分。例如,在分析句子“A man’s taking a walk in a park”或“A man’s taking walk in asuit”时,为了确定单词组合in a park或in a suit的句子成分,生成两个系统请求。第一个包括疑问词where?,和单词组合in a park,句法分析准确推断出in a park是地点状语。在第二种情况中,生成以下系统请求in what?-in a suit。如果系统的请求处理导致肯定答复,意味着第一个单词组合为副词,第二个为宾语。如果系统的请求产生错误断言(如,where?-in a suit),则答案将是否定的。这意味着单词组合in a suit不是地点状语。
用于生成语义分析系统的第一知识库的请求的上述方法,可以应用于句子句法分析的更复杂的情况。例如,在确定副动词结构的副词的类型时,在确定从句的类型时。为此,生成一个特殊请求,包含指定的副动词结构或从句,基于所述请求在大量“请求回复”类型知识库中查找其类似语,精确度为同义词的程度。如果所述数据库中的回复词组中包含所述类似语,则使用文本的索引表进行抽取。从而确定与该副动词结构或从句对应的疑问句,进而准确确定其所属类型。
如果第一知识库不包括请求的类似语,则通过使用第二和第三知识库以及逻辑结论子系统6,准确确定句子成分。如上所述,第三知识库包含产生式规则,该规则通过使用语义分析,确定句子成分的名称,副动词结构或复杂句中的从句类型,以形成它们的疑问句。
使用知识库执行语义分析的一个主要版本是,通过使用产生式规则,把每个句子成分固有的语义属性翻译为包含规定单词和某个基础单词的单词组合的集合。基于语义把基础单词单独连接到指定句子成分,并与该成分相对应(不能与其他句子成分一起使用)。在根据最初分析的文本生成产生式规则中描述的单词组合时,通过使用逻辑结论,基于形态分析和句法分析知识库的规则,对原文进行等效转换。
在获取所需单词组合后,通过访问第二个索引文本的数据库,检查其许可,其中该数据库允许选择包括所需单词组合的段落和独立的句子。如果在许多原文文档中找到使用该单词组合的一个或多个句子,则该单词组合的单词之间的关系是允许的。因此,认为该单词属于特定句子成分。
可以使用更复杂的结构(如,分词,副动词结构,复杂句中的从句)代替独立的单词组合。因此,当句法分析不能提供准确结果时,特定单词组合表示的语义知识的组合,与确定众多原文文档中的单词之间的许可关系的处理一起,准确确定句子成分。
在完成原文文档的句子的形态、语义和句法分析后,以获得的句子框架为基础,生成文本的索引表(表2),包括确定表格的每个单元格的内容的列表{Iξi (s)}。接着,该方法对与所需主题有关的下一篇文本进行随机索引处理。同时,进行自我指导,为语义分析的知识库14提供产生式规则,其中通过使用上述过程和随机索引的语义结构(2),以相应的文本片段为基础导出该规则。请注意,基于从对应语言文本中获取的许多片段,通过利用上述过程独立生成相同的随机索引语义结构(2),保证每条规则的正确性。然后,把随机索引的语义结构转换为“如果(条件),则(结论)”形式的产生式规则。利用随机索引的文本和产生式的解释器4和文本的等效转换子系统5完成该处理。
在处理有关该题目的所有原文文档时,生成与该题目有关的文本的索引表(表3)。利用原文文档中包含的词干的非重复索引{Iξi (u)}表示各行。表格中的各列对应于在语法和语义分析期间处理的文本的随机索引{Iξi (t)}。该表格的单元格包含由文本{Iξi (t)}的段落索引{Iξi (a)}组成的列表的索引{Iξi (s)},包括词干的对应索引{Iξi (u)}。把列表中的条目存储在独立文件中,根据适当索引{Iξi (s)}进行访问。
在生成所述索引表并在ISLSEK的自我指导模式中生成知识库后,在自我指导和知识抽取模式控制子系统3的控制下,该方法继续处理用户请求,以便从与该请求有关的原文文档中抽取知识。
在抽取知识时,该过程大量使用用户请求和文本片段的句子的等效转换。以下详细说明转换文本句子的过程。
ISLSEK提供以下层次的文本的等效转换:
第一层等效转换是在句子成分的分组内实现的:包括实词,谓词,宾语,副词的单词组合。该转换涉及引语部分的改变,利用不一致的定语替换一致定语。该层次对应于以下项目的转换:a computernetwork-a network of computers,computer service-service ofcomputers。
第二层等效转换对应于简单句(自主句和构成复杂句的句子)内的句子成分的等效转换。通过使用公根引语部分的转换,执行以下类型的句子成分替换:
用谓词替换实词;
用实词替换谓词;
用实词替换宾语;
用副词替换谓词,等。
在特殊情况中,引语部分可以不变(只有格改变)。
第三层等效转换对应于复杂句内的等效转换。此时,把一种类型的从句替换为另一种类型的从句,或分词,动词副词短语。有时通过利用规则确定的相配介词替换连词,把复杂句转换为简单句。
以下考虑通过替换单词组合中的句子成分(即,用不一致的定语替换一致定语,用实词替换直接宾语)进行等效转换的例子。原句为:“Software and hardware means protect the computer programs”。在该系统中,利用以下随机索引的语义结构表示带有{Iξ1 (p)}索引的原句:
Iξ1 (p):Iξ12 (su)→Iξ13 (su)→Iξ14 (su)    (5a)
该结构具有原句的以下单词组合:
Iξ12 (su)=(software and hardware means),
Iξ13 (su)=(protect);
Iξ14 (su)=(the computer programs)。
句子成分的上述等效转换允许创建以下单词组合:
Iξ22 (su)=(programs of a computer),
Iξ23 (su)=(are protected);
Iξ24 (su)=(by software and hardware means)。
上述转换导致与具有索引{Iξ1 (p)}的原句相等的句子,该句的索引为{Iξ2 (p)},并具有以下随机索引语义结构:
Iξ2 (p):Iξ22 (su)→Iξ23 (su)→Iξ24 (su)    (5b)
基于该结构,生成以下句子:“Programs of computer are protectedby software and hardware means”,该句与原句相等。可以理解,在新句中,实词Iξ22 (su)对应于原句的直接宾语Iξ14 (su)的单词组合,其中用不一致定语替换一致定语。这里,把第一句的实词Iξ12 (su)转换为第二句中的直接宾语Iξ24 (su),谓词Iξ13 (su)具有反身动词Iξ23 (su)的形式。所述转换通常用于文本的随机索引句和用户请求的等效转换。
用户请求是用自然语言编辑的。接着,把用户请求转换为许多新请求,新请求包括定义该请求的语义的疑问词和单词组合,并与原请求相同。通过使用同义词(近似含义的单词)替换引语部分和句子成分,对原用户请求进行所述等效转换。因此,由于应用形态、句法和语义分析的随机索引规则来获取该请求的疑问句的单词组合的等效结构,由于保持单词组合之间的语义链接,所以能够保持原请求的含义。
然后,根据转换后的用户请求,初步选择具有该请求的所有单词组合的原文文档的片段。如果该请求无法初步选择符合上述需求的原文文档的片段,则对该请求进行新的等效转换。
以下说明请求的处理过程以及根据不同的原文文档,段落和句子生成回复的算法。当语言处理器1收到用户的请求时,把该请求输入到随机索引处理并分离出文本片段的子系统2中,从而形成词干的随机索引并分离出词尾。接着,经由自我指导和知识抽取模式控制子系统3,把随机索引的请求写入到逻辑结论子系统6中。这里,以知识库12和13中的产生式规则为基础,对该请求进行形态分析和句法分析。因此,生成疑问句框架。此后,解释器4提供疑问句作为具有主导词和从属词的单词组合的集合,以及与所述单词组合相对应词干的随机索引。
S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}    (6)其中Iξi (u)Iξj (u)为单词组合中的主导词和从属词的词干的随机索引。Iξi (r)Iξj (r)为所述单词组合中的主导词和从属词的引语部分的随机索引。Iξi (z)Iξj (z)分别为所述单词组合中的主导词和从属词的引语部分的形态和句法特征的随机索引。
基于获得的索引,生成该请求的随机索引语义结构,该结构通常表示为:
P:Iξ1 (su)Λ Iξ2 (su)→Iξ3 (su)→Iξ4 (su)ΛIξ5 (su)    (7)其中Iξ1 (su)为疑问词组合的索引,Iξ2 (su)为实词的单词组合索引;Iξ3 (su)为谓词的单词组合索引;Iξ2 (su)→Iξ3 (su)为连接实词和谓词的表语句数据库;Iξ3 (su)→Iξ4 (su)为确定句子中的关系类型的谓词和宾语(副词)之间的关系;Iξ4 (su)为宾语(副词)的单词组合的索引;Iξ5 (su)为副词(宾语)的单词组合的索引。
根据表达式(6,7)的索引,通过访问有关预定题目的随机索引文本的数据库10,使用有关预定主题的文本的索引表,找到包含该请求的所有单词组合的片段集合,包括疑问词组合。每个文本片段由一个或多个段落组成。
如果找到满足所述条件的一个或多个文本,则该方法通过使用每个文本的索引表继续处理这些文本的段落。请注意,在带有Iξ1 (u)索引的某个文本的索引表中(在该表格的某个单元格的列表Iξ1 (s)中),出现具有疑问句索引和与其关联的主导词的词干索引的疑问词组合,表示指定文本的所述段落包含由回复Iξ0 (su)的词组组成的句子,该词组与疑问词组合(Iξ0 (su)→Iξ1 (su))的主导词连接。
如果找不到符合所述条件的至少一个文本,则该方法通过用同义词或近似含义的单词替换文本段落不包含的单词,通过在不改变请求的含义的情况下替换引语部分和句子成分,继续对用户的请求进行等效转换。
通过参照指定文本的索引表,进一步处理满足所述条件的文本。为此,通过访问数据库10中的文本索引表,通过使用疑问词组合Iξ1 (su)的索引,找到包含回复的词组的句子,该词组对应于该请求的疑问词组合,并且连接到该请求的主导词。如果该请求的单词组合S:{(Iξi (u)Iξi (r)Iξi (z))→(Iξj (u)Iξj (r)Iξj (z))}包含在各种文本的不同段落V:{(Iξi (t)Iξj (a))中,则形成该回复的单一逻辑连接文本的必要条件为,在至少一个段落中,出现与该请求的疑问词组合的Iξ1 (t)相应的回复Iξ0 (su)的词组,以及其通式包含实词和谓词组合的索引的表达式(7)的表语数据库Iξ2 (su)→Iξ3 (su)。如果满足所述条件,则使用分离出的段落集合进行进一步处理,因为基于初步选择的段落可以形成该请求的单一逻辑连接文本。否则,该方法继续输入有关该主题的新文本并进行索引处理。
首先,考虑生成回复的简单情况,即能够以指定文本的一个或多个连续段落为基础,形成包含该请求的所有单词组合的文本片段。此时,首先按以下表达式的方式,形成该回复的随机索引语义结构的数据库:P:Iξ0 (su)→Iξ1 (su)ΛIξ2 (su)→Iξ3 (su)    (8)其中Iξ0 (su)为回复词组索引;Iξ1 (su)为疑问词组合的索引;Iξ2 (su)为实词的单词组合索引;Iξ3 (su)为谓词的单词组合索引;Iξ2 (su)→Iξ3 (su)为句子的表语数据库。为此,在指定文本片段中确定包含与疑问词组合的主导词(Iξ0 (su)→Iξ1 (su))连接的索引回复词组的句子后,找到包含谓词数据库(Iξ2 (su)→Iξ3 (su))的句子。
由于所述词组通常包括不同措辞,因此为了创建语义结构模式(8),使用指定文本片段的索引句执行逻辑结论过程。为此,把包含回复词组的第i个句子表示为P:Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ3i (su)→Iξ4i (su)ΛIξ5i (su)    (9)其中Iξ0 (su)为回复词组索引;Iξ1 (su)为疑问词组合的索引;Iξ2i (su)为实词词组索引;Iξ3i (su)为谓词的单词组合索引;Iξ2i (su)→Iξ3i (su)为句子的表语数据库;Iξ3i (su)→Iξ4i (su)为定义指定句子中的关系类型的谓词和宾语(副词)之间的关系;Iξ4i (su)为宾语(副词)的单词组合的索引;Iξ5i (su)为副词(宾语)的单词组合。
为了基于表达式(9)实现逻辑结论,通过使用传递关系,生成第i个句子的题目→注释类型随机索引语义结构:TR:Iξ2i (su)→Iξ3i (su)→Iξ4i (su)=Iξ2i (su)→Iξ4i (su)    (10)其中题目为实词组合的索引Iξ2i (su),注释为宾语(副词)单词组合索引Iξ4i (su)
包含该请求的表语数据库的第j个句子通常具有以下随机索引语义结构:P:Iξ2 (su)→Iξ3 (su)→Iξ4j (su)ΛIξ5j (su)    (11)其中Iξ2 (su)为请求的实词单词组合索引;Iξ3 (su)为请求的谓词的单词组合索引;Iξ2 (su)→Iξ3 (su)为请求句的表语数据库;Iξ3 (su)→Iξ4j (su)为定义第j个句子中的关系类型的实词和宾语(副词)之间的关系;Iξ4j (su)为宾语(副词)的单词组合的索引;Iξ5j (su)为副词(宾语)的单词组合的索引。把表达式(11)转换为第j个句子的题目→注释语义结构:TR:Iξ2 (su)→Iξ4j (su)    (12)
请注意,文本信息的完全句之间有语义连接,因此有语法(句法)连接。句子的结构相关(即,它们之间的句法连接)有两种方法。第一种方法为连续连接,第二种方法为并列连接。
连续连接表示连接文本中思想的连续发展。题目(主题)为初始点,思想发展的开始,“特定的”;注释为思想发展,其基础,核心,“新的”。
把连续连接的语义结构表示为两个相邻句的结构相关。通常,前一句的某个成分(如宾语)成为后一句的实词。连续连接的最常见结构类型为:“宾语—实词”,“宾语—宾语”,“实词—宾语”,“实词—实词”等。
利用a)词汇反复(当句子的相关成分的表现相同时);b)同义词;c)代词表示连续连接中的句子之间的结构相关。
连续连接为自主句中最重要使用最广泛的连接方法。
与连续连接类似,并列连接存在于关联句的结构相关。然而相关的性质不同。句子中的并列连接的主要结构特征为:a)结构平行(通用类型或句法近似的关联句);b)平行(类似)词序;c)所有或某些句子成分的相同语法表示。
语义“进入”段落中的连续和并列连接结构是,文本的指定段落或许多连续段落的关联句中的原句的题目。
因此,以题目→注释类型的每个句子的基本语义结构为基础,通过逻辑结论,可以找到用来定语连续和并列类型的句子之间的连接的更复杂的语义结构。为此,第i个句子中的回复词组和第j个句子中的请求句的表语数据库之间的语义连接的必要条件为基于逻辑结论的证据,其中指定文本片段的单一语义结构包括逻辑结论。按照随机索引形式,该结构表示为:
Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ4i (su)ΛIξ4j (su)ΛIξ4k (su)Λ...ΛIξ2m (su)→Iξ2 (su)Λ
Iξ2 (su)→Iξ4j (su)=Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ4i (su)→Iξ4k (su)...Iξ2i (su)→Iξ4j (su)(13)
用于确定所述词组之间存在语义连接的逻辑结论,是基于与指定题目有关的随机索引原文文档数据库10的文本的索引表导出的。为此,使用逻辑结论子系统6和等效转换子系统5。逻辑结论从第i个句子开始,该句子包括与疑问词组合的主导词相连的回复的词组,请求的表语数据库,并具有随机索引语义结构(9)。
在把所述句子表示为类型题目→注释(10)的语义结构后,根据索引表,找到指定句的注释转入下一个句子的题目的下一个句子。为此,使用与指定段落的索引Iξj (a)对应并与第i个句子的宾语或副词的单词组合索引Iξ4i (su)对应的单元格。根据所述单元格,找到指定段落中的句子数,其中指定单词组合包括实词。接着,使用单元格地址信息,找到所述句子的谓词的索引以及宾语或副词的单词组合的关联索引Iξ4k (su),即,根据表达式(13),找到与前一个句子逻辑连接的下一个句子的注释。逻辑结论继续,直至关系(Iξ2 (su)→Iξ4j (su))定义的下一个句子包括与该请求的表语数据库对应的索引(Iξ2 (su)→Iξ3 (su))。
如果在逻辑结论期间,任何句子的注释索引Iξ4n (su)与下一个句子的题目Iξ2n+1 (su)均不相符,意味着所述下一个句子或者使用指定单词的同义词,或者使用代词。在前一种情况中,根据该单词组合的词干的索引Iξ2n+1 (su),访问随机索引的语言文本的数据库8的同义词字典中的索引表。这里,找到同义词的词干{Iξs (u)},根据该词干形成下一个句子的注释的索引Iξ4n (su)。在后一种情况中,下一个句子的题目的索引Iξ2n+1 (su)对应于与单词组合Iξ4n (su)一致的代词,根据数据库7的字典的索引表进行检查。如果满足第一或第二条件,则逻辑结论继续直至找到包含查找的请求单词组合的句子,此时为请求表语数据库的(Iξ2 (su)→Iξ3 (su)。因此,在逻辑结论期间,综合与表达式(13)相应的随机索引语义结构。
在考虑的情况中,如果该请求的所有单词组合均包含在一个段落或某个文本的一组连续段落中,则指定文本片段中的逻辑结论将继续,以生成包含该请求的所有单词组合的单一随机索引语义结构,单词组合包括宾语Iξ4 (su)和副词Iξ5 (su)的单词组合:
S:Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ4i (su)→Iξ4k (su)...Iξ2 (su)
Iξ4 (su)...Iξ2m (su)→Iξ4 (su)...Iξ2n (su)→Iξ5 (su)    (14)
为此,按照顺序题目→注释执行上述逻辑结论功能,直至语义结构(14)包括由指定段落的不同句子组成的请求的所有单词组合。请注意,综合所述语义结构(14)的必要条件是,该请求的单词组合对应于相同句子成分,并且该单词组合与文本段落中的单词组合相同。因此,如果与文本的句子中的请求单词组合相同的单词组合涉及其他句子成分,则对这些句子进行等效转换,从而所述单词组合涉及请求的句子成分。在等效转换子系统5中,根据上述过程执行该功能。
在生成语义结构(14)时,该方法继续检查是否没有矛盾。为此,利用基础关系检查每个句子包含的谓词{Iξ3i (su)}的单词组合的语义相关,其中语义结构(14)是基于该句子生成的。此类关系为性方面的关系,“部分—整体”或“因果”(条件—结论)类型的关系。这些关系是通过根据所述索引访问随机索引文本的数据库8确定的,目的是查找参考字典索引表中谓词{Iξ3i (su)}的语义。在该步骤中,检查带有上述基础关系或写入到解释器(4)中的同义词的{Iξ3i (su)}索引的谓词的语义的同一性。如果满足上述条件,则在生成的语义结构(14)中保持传递关系。因此,可以把查找的具有Iξj (su)索引的请求单词组合传送到生成的回复句中,其方法是在具有Iξi-1 (su)索引的单词组合后,在生成的题目→注释类型语义结构中使用逻辑结论。如果不满足该条件,则指定段落不包含与用户请求有关的回复。此时,该方法继续分析下一个预先选择的段落或一组段落。
当在段落的不同句子中找到所述单词组合时,用于确定请求单词组合之间的语义关系的上述逻辑结论过程继续,直至生成该用户的简短回复,作为包括回复词组,疑问词组合,表语数据库和该回复包含的所有其他单词组合的句子。把生成的简短回复表示为以下随机索引语义结构:
P:Iξ0 (su)ΛIξ1 (su)ΛIξ2i (su)→Iξ3 (su)→Iξ4 (su)ΛIξ5 (su)   (15)其中Iξ0 (su)为回复词组索引,Iξ1 (su)为疑问词组合索引;Iξ2 (su)为实词单词组合索引;Iξ3 (su)为谓词的单词组合索引;Iξ2 (su)→Iξ3 (su)为句子的表语数据库;Iξ3 (su)→Iξ4 (su)为谓词和宾语(副词)之间的关系,该关系定义指定句子中的关系类型;Iξ4 (su)为宾语(副词)的单词组合的索引;Iξ5 (su)为副词(宾语)的单词组合的索引。
根据上述过程,通过以原文文档的不同的预先选择的随机索引片段为基础,生成若干相同的随机索引语义结构(15),确保简短回复的正确性。
生成的结构(15)意味着简短回复导致的逻辑结论与该请求的疑问句相同。因此,该回复与用户请求关联。在将其转换为指定语言的文本形式后,向用户输出该回复,作为系统根据该请求提供的知识。
如果用户请求提供更完整的回复,则该方法以生成简短回复的段落为基础,继续转换文本的原始段落;如果需要的话,转换后续文本段落。其目的是以所述段落为基础,获取在指定文本片段内提供简短回复之细节的单一的随机索引语义结构。以下论述执行上述功能生成完整回复的方法。
在初步搜索索引表时,如果找不到其段落包含该请求的所有单词组合的文本,则根据获得的请求索引,查找其段落集合包含该请求的所有单词组合的文本。如果找不到此类文本片段集合,意味着随机索引原文文档的数据库10的内容不能生成与用户请求有关的回复。此时,该方法继续从搜索系统中输入与指定主题有关的新文本,并进行索引处理。
在初步选择期间,通过使用与该请求的单词组合S:{Iξi (u)→Iξj (u)}的索引相应的文本的索引表,为每个文本选择包含该请求的所有单词组合的段落集合形式的片段:V:{Iξi (t),Iξj (a)}其中Iξi (t),Iξj (a)分别为包含用户请求的单词组合的指定文本的文本索引和段落索引。如果请求单词组合的索引Iξi (su):{Iξi (u)→Iξj (u)}没有完全包含在至少一个文本Iξi (t)的任一段落(Iξi (t),Iξj (a))中,而是包含在一个文本的不同段落中或不同文本的不同段落中V:{Iξi (t),Iξj (a)},则基于预先选择的文本片段的段落,生成包含该请求的所有单词组合(包括疑问词组合)的单一逻辑连接文本S:={Iξi (su)}。
此时,如果不同文本{Iξi (t),Iξj (a)}的不同段落包含单词组合S:={Iξi (su)},则生成单一逻辑连接文本的必要条件为,在至少一个段落中,出现回复词组的索引Iξ0 (su),该请求的疑问词组合Iξ1 (su)的主导词和表达式(15)的表语数据库(Iξ2 (su)→Iξ3 (su)),其中表达式的通式包括实词和谓词组合的索引。
如果满足所述条件,则使用选定的段落集合进行进一步处理,因为可以以预先选择的段落为基础,生成单一逻辑连接的回复文本。否则,该方法继续输入有关指定主题的新文本,并进行索引处理。
如果满足所述条件,则该方法继续形成所述段落的逻辑连接集合。为此,检查以下条件的一致性:每个单词组合包含在至少两个不同段落中:
Iξi (su)→(Iξi (t),Iξj (a)),...,(Iξk (t),IξI (a))    (16)
如果不满足所述条件,则该方法检查只包含一个请求单词组合Iξi (su)的段落是否具有预选段落包含的利用某一基础语义关系与Iξi (su)单词组合相连的其他单词组合Iξk (su)。对于所述检查,自我指导和知识抽取模式控制子系统3生成一个请求,该请求所述随机索引的语言文本的数据库8,查找包含题目→注释关系连接的所述索引的句子:
Iξk (su)→Iξi (su)    (16a)
把找到的句子传送到随机索引的文本和产生式的解释器4,后者检查关系(16a)是否与性、集合或因果关系相对应。
如果不满足条件(16)和(16a),则推断出不能使用该文本片段生成回复。
如果满足所述条件,则该方法继续检查以选定段落为基础生成单一语义结构的可能性。为此,首先通过使用包含预选段落的每个文本的索引表,编辑单词组合索引列表。单词组合索引包含在适当索引标识的段落中:
(Iξi (t),Iξj (a))→(Iξi (su)),...,(Iξk (su))    (17)
接着,通过使用所述段落列表中的单词组合的相同索引,该方法确定每个指定段落关联的段落。基于所述列表,为每个段落索引编辑新列表,每个列表包括利用相同单词组合索引连接到指定段落的其他段落的索引。因此,如果每个列表包括至少一个其他列表包含的至少一个段落,则通过使用列表之间直接和间接传递关系,生成包含所有段落之索引的单一列表。此时,认为预选段落能够形成单一文本片段形式的逻辑连接的段落集合。否则,认为该段落集合不能构成组成单一文本片段所需的逻辑结构。此时,从处理中排除所述集合,该方法继续预选新的文本片段。
在确定预选段落构成逻辑连接段落的单一结构后,基于每个文本对应索引表生成单一文本表。为此,按照请求疑问句中的段落包含的请求单词组合序列的顺序确定的次序,排列所述段落。传送由此生成的文本片段进行进一步处理,以便通过使用逻辑结论,确定包含该请求的所有单词组合{Iξi (u)}的段落的句子之间的语义连接的类型。执行所述功能,以便以上述算法获得的文本片段为基础,生成包含该请求的所有单词组合的随机索引语义结构。此后,根据上述算法,通过使用等效转换以及有关传递关系的逻辑结论,应用获得的语义结构,以生成包含与用户请求有关的简短回复的句子的语义结构(15)。根据上述过程,通过以原文文档的不同的预先选择的随机索引片段为基础,生成若干相同的随机索引语义结构(15),确保简短回复的正确性。
把获得的简短回复和疑问词组合一起存储到“请求回复”知识库9中,利用数据库9处理重复的典型用户请求,并且如上所述,对索引文本进行语义分析。
在建立语义结构后,如果在指定文本片段的请求的单词组合{Iξi (su)}之间不能保持所需的基础语义连接,则该方法继续搜索新文本,以生成该用户的回复。
如果逻辑结论产生肯定结果,则生成其简短回复与该请求有关的句子,向用户输出该句子作为指定语言的文本。此时,如果用户需要更完整的回复,则该方法根据以下所述方法,通过转换先前获得的文本片段,继续生成完整回复的步骤。
以下举例说明执行上述算法生成简短回复的过程。假设在等效转换接收的用户请求后,该请求获得以下文本形式:“What program isused in case of incorrect computer operation termination as a result ofvoltage failure in the mains?”。这允许从完全包含转换后的请求的所有单词组合的原文文档中预选以下两个逻辑连接的段落:
“Logical errors may occur on the hard disc.The logical errors aredisorders in the fles tructure.To find out the logical errors,the“Disccheck”routine is used.The logical errors occur when computeroperation is terminated incorrectly.”
第二段:“In case of voltage failure in the mains,file structuredisorders occur on the hard disc.In such case the“Disc check”routineis used”
在随机索引形式中,其中请求的实际出来发生并生成简短回复,该请求如下:
Iξ0 (P):Iξ01 (su)ΛIξ02 (su)→Iξ03 (su)→Iξ04 (su)ΛIξ05 (su)ΛIξ041 (su)ΛIξ051 (su)(18)以下单词组合与随机索引Iξ0j (su)相对应:
Iξ01 (su)=(what program)
Iξ02 (su)=(program)
Iξ03 (su)=(is used)
Iξ04 (su)=(in case of incorrect termination)
Iξ05 (su)=(computer operation)
Iξ41 (su)=(as a result of failure)
Iξ051 (su)=(voltage in the mains)
把随机索引形式的第一段中的句子表示为:
Iξ1 (P):Iξ12 (su)→Iξ13 (su)→Iξ14 (su)
Iξ2 (P):Iξ22 (su)→Iξ23 (su)→Iξ24 (su)
Iξ3 (P):Iξ32 (su)→Iξ33 (su)→Iξ34 (su)ΛIξ35 (su)
Iξ4 (P):Iξ42 (su)→Iξ43 (su)→Iξ44 (su)ΛIξ45 (su)    (19)
以下单词组合对应于随机索引Iξij (su)
Iξ12 (su)=(logical errors)
Iξ13 (su)=(may occur)
Iξ14 (su)=(on the hard disc)
Iξ22 (su)=(logical errors)
Iξ23 (su)=(is)
Iξ24 (su)=(disorders in the file structure)
Iξ32 (su)=(“Disc check”routine)
lξ33 (su)=(is used)
Iξ34 (su)=(to find out)
Iξ35 (su)=(logical errors)
Iξ42 (su)=(logical errors)
Iξ43 (su)=(occur)
Iξ44 (su)=(in case of incorrect termination)
Iξ45 (su)=(of computer operation)
把随机索引形式的第二段中的句子表示为:
Iξ5 (P):Iξ52 (su)→Iξ53 (su)→Iξ54 (su)ΛIξ55 (su)ΛIξ551 (su)
Iξ6 (P):Iξ62 (su)→Iξ63 (su)→Iξ64 (su)    (20)
以下单词组合对应于随机索引Iξij (su)
Iξ52 (su)=(disorders in the file structure)
Iξ53 (su)=(occur)
Iξ54 (su)=(on the hard disc)
Iξ55 (su)=(as a result of failure)
Iξ551 (su)=(voltage in the mains)
Iξ62 (su)=(“Disc check”routine)
Iξ63 (su)=(is used)
Iξ64 (su)=(to find out)
Iξ65 (su)=(logical error)
Iξ651 (su)=(in such case)
以所述随机索引语义结构为基础,根据上述过程建立包含所有请求的单词组合Iξij (su)的随机索引语义结构。作为基础,选择包含与疑问词组合Iξ31 (P)对应回复词组Iξ32 (su)的结构Iξ3 (P)。考虑以下单词组合的同一性(与词干相同):
Iξ02 (su)=Iξ31 (su)=Iξ64 (su)
Iξ03 (su)=Iξ33 (su)
Iξ04 (su)=Iξ44 (su)
Iξ04 (su)=Iξ45 (su)
Iξ041 (su)=Iξ55 (su)
Iξ051 (su)=Iξ551 (su)
Iξ12 (su)=Iξ22 (su)=Iξ42 (su)
Iξ24 (su)=Iξ52 (su)    (21)
因此,所述随机索引结构具有以下形式:
Iξ0 (P):Iξ32 (su)→Iξ33 (su)→Iξ34 (su)ΛIξ35 (su)→Iξ24 (su)→Iξ55 (su)ΛIξ551 (su)→Iξ35 (su)→Iξ44 (su)ΛIξ45 (su)    (22)
考虑到对应索引的同一性以及指定语义结构中的索引之间的关系具有性和因果特性,通过使用逻辑结论获得以下结构:
Iξ0 (P):Iξ32 (su)ΛIξ02 (su)→Iξ03 (su)→Iξ04 (su)ΛIξ05 (su)ΛIξ041 (su)ΛIξ051 (su)(23)
因此,建立的简短回复的随机索引语义结构为:“The“Disc check”routine is used when computer operation is terminated incorrectly as aresult  of voltage failure in the mains.”
在利用疑问词组合“What program”替换““Disc check”routine”回复词组后,获得的简短回复与以下请求相同:“What program is used incase of incorrect computer operation termination as a result of voltagefailure in the mains?”。这就是获得的该请求的简短回复的关联标准。因此,可以向用户输出获得的简短回复。
为了以预选段落或获得的文本片段为基础生成完整回复,仅仅选择生成的简短回复句的逻辑结论中包含的句子。按照逻辑连接引起的顺序排列所述段落或文本片段的句子。逻辑连接的顺序与确认请求的单词组合之间的语义连接所用的顺序相同。不同句子包含的单词组合与同一请求单词组合关联,其中具有回复词组和疑问词组合的主导词的句子包含请求的单词组合。与先前生成的简短回复中的所述连接相对应的请求单词组合的连续次序确定句子连接的连续次序。为了提供句子的一致性,生成完整回复包括通过替换引语部分或句子成分等效转换某些句子,而并不改变所述句子的含义。如果句子的等效转换要求替换介词,则与特定介词组合时,在考虑引语部分必需具有的特征的情况下进行替换。如果需要的话,可能需要替换引语部分的格,以便与名词或形容词,代词或带有新介词的分词一致。为此,利用适当规则连接介词和格,其中所述引语部分与指定介词一致。
如果请求的疑问词或单词组合(how?in what manner?)设想非简短的单句回复,而是步骤序列或过程或现象的描述,此时简短回复的措辞为包含以下类型的回复词组的起始句:“as follow”,“thus”。回复的后续句子公开包含完整回复的步骤序列或描述的内容。如果该回复的典型词组不存在,则另外引入相同词组以生成起始句。此后,采用起始句中的回复词组作为未来完整回复的起始题目。另外,通过使用逻辑结论,选择构成指定用户请求的完整回复的语义连接句的集合的一个或多个段落的句子序列。逻辑连接句子的连续连接确定回复的边界,当完成一个段落时连接结束,前提是所述段落的最后一个句子的题目与下一段的第一个句子的注释没有联系。在生成包含起始句的完整回复的文本片段后,向用户输出所述片段。
本文开发的方法适合于综合自我指导系统,后者用于从采用指定外语的搜索系统使用的原文文档中抽取知识。通过使用指定外语的随机索引语言文本,根据上述过程,在形态、句法和语义分析规则方面对该系统进行自动指导。对采用指定外语表示的导出规则进行随机索引处理,然后写入到形态、句法和语义分析的对应知识库12-14中。基础词和新词的随机索引字典的数据库7和随机索引的原文文档的数据库10是用指定外语生成的。
在根据上述过程生成所述数据和知识库后,采用指定外语转换用户的请求,初步选择所需题目的原文文档的片段。接着,对原文文档片段的数据进行等效转换;生成随机索引语义结构,使用所述结构导出逻辑结论,以生成与指定外语的请求有关的简短回复。
本文开发的方法适合于综合自我指导系统,后者用于从采用众多指定外语之任一外语的搜索系统使用的原文文档中抽取知识。为此,使用随机索引人工智能系统形式的自我指导机制,其基础是应用用于随机索引处理的随机索引的双态信号的唯一组合以及搜索指定基础语言中的语言文本片段,该片段包括语法和语义分析的描述。该机制通过等效转换任意指定外语的文本的随机索引片段,在语法和语义分析规则方面为系统提供自动自我指导,提供逻辑结论并根据所述片段生成连接语义结构,对所述结构进行随机索引处理以便用产生式规则表示。
首先,通过使用上述机制,对电子形式的指定基础语言中的语言文本进行形态分析和随机索引处理,同时在形态分析规则方面对系统进行指导。同时创建指定外语的随机索引字典的数据库7和数据库8的语言文本的索引表,以及创建形态分析的知识库12,后者包含用于指定基础语言和指定外语的导出产生式规则。
接着,对于搜索系统中电子形式的指定外语中的指定题目涉及的原文文档进行形态分析和句法分析,并进行随机索引处理。然后,形成指定主题的原文文档的索引表,存储在随机索引文本的数据库10中,同时在句法分析规则方面对系统进行自动指导。通过使用指定基础语言中的随机索引语言文本,根据上述过程实现所述指导。然后创建基础语言和指定外语的句法分析的知识库13。
接着,对电子形式的指定基础语言中的指定主题的随机索引原文文档进行语义分析,同时在语义分析规则方面对系统进行自动指导,并创建基础语言和指定外语的语义分析的知识库14。
在完成知识库11和12后,该系统从自动自我指导模式转到用户请求处理模式。在这种情况下,用户请求是采用指定外语的自然语言生成的,在对包含定义该请求语义的疑问词组合和单词组合的疑问句进行随机索引处理后,用电子形式表示该请求。然后,通过使用上述过程,把随机索引形式的用户请求转换为与指定外语的原始请求相等的众多新请求。接着,根据用户请求,预选包含转换后的请求的所有单词组合的电子形式的指定外语中的原文文档的随机索引片段。通过使用所述原文文档片段,生成随机索引语义结构。基于生成的随机索引语义结构,通过使用提供各种文本的随机索引元素之间的连接的逻辑结论,通过使用文本的等效转换,生成一个简短回复,后者包含定义请求语义的随机索引单词组合以及与该请求的疑问词组合对应的回复词组。通过以原文文档的不同的预先选择的随机索引片段为基础,生成若干相同的随机索引语义结构,确保简短回复的正确性。
通过用相应的随机索引的疑问词组合替换回复词组,生成随机索引的疑问句,并比较获得的疑问句和该请求,检查获得的简短回复与该请求的关联性。基于所述句子的比较,当获得的疑问句与该请求相同时,确定简短回复与该请求关联,并采用指定外语向用户显示该请求。
考虑应用综合自我指导系统的方法的另一种方案,其中所述系统从指定外语的原文文档中抽取知识。此时,首先根据上述过程,通过使用指定基础语言中的随机索引语言文本,在形态、句法和语义分析规则方面对系统进行自动指导。随机索引语言文本数据库8包含以选定的基础语言为基础学习指定外语的教育指导手册。在外来词的随机索引字典的数据库11中写入字典,后者提供从基础语言到任一指定外语的各个单词的直接翻译或反向翻译。接着,创建随机索引字典的数据库7以及指定基础语言的形态、句法和语义分析的知识库12-14。此后,自动自我指导模式控制子系统3自动生成所述数据库和知识库的请求,以便初步选择基础语言中的语言文本片段,该片段包括学习指定外语所需的知识。接着,对该文本进行等效转换,生成随机索引语义结构,以及与预定结构相应的逻辑结论,以便生成与导出的自动请求关联的回复。利用上述回复生成指定外语的原文文档的形态、句法和语义分析的产生式规则。例如,如果基础语言为俄语,则在自动导出的规则中,用于学习英语的句法分析的知识库包括以下规则:
1.如果不带介词的名词位于句子的开始,and所述名词位于具有of(in,from)介词的名词之前,and所述名词之后有一个动词,则第一个名词为实词。
例如:The work of the engineer is on the table.
2.如果单词组合由系动词(人称形式的to be动词)和形容词表示的名词性部分组成,则该单词组合为复合名词性谓词。例如:The tree is big.
在随机索引处理后,把导出的规则写入到形态、句法和语义分析的知识库12-14中,以便从用户请求的指定外语的原文文档中抽取知识。通过使用相应外语,创建与指定题目有关的随机索引字典的数据库和原文文档的索引表。请注意,在语义分析与所需外语的预定题目有关的原文文档时,为了确定语义连接类型,通过使用随机索引的外来词字典的数据库11,把某些单词组合翻译为基础语言。根据基础语言参考字典的索引表,通过使用逻辑结论,使得某些单词组合与其索引已写入随机索引的文本和产生式的解释器4中的一类语义关系相互关联。因此,根据上述过程,语义分析能够指定与引语部分相对应的单词,并且在生成该请求的回复的随机索引语义结构时,确定单词组合之间的关系类型。
通过使用所述数据库和知识库,在自我指导和知识抽取模式控制子系统3的控制下,采用指定外语对用户请求进行等效转换。接着,预选与指定题目有关的原文文档的片段;执行等效转换,生成随机索引语义结构和导出所述结构的逻辑结论。从而确保准备与指定外语的用户请求关联的回复。
在处理请求时,如果发现需要访问搜索系统以便输入指定题目的外语的新的原文文档,则自我指导和知识抽取模式控制子系统3启动多语种语言处理器1。该处理器接收指令,以输入基础语言中的新文档,其中指令规定题目和外语的名称。多语种语言处理器1通过使用随机索引外语字典的数据库11,选择所需字典,并将指示题目名称的单词翻译为适当外语。基于接收的信息,多语种语言处理器1向搜索系统提供指定语言的形式化请求,以便输入与指定题目有关的新的外语文档。把所述文档传送到子系统2,后者对原文文档进行随机索引处理,分离出用于上述处理的文本片段,然后存储到随机索引的原文文档的数据库10中。
工业适用性
用于综合从搜索系统使用的原文文档中抽取知识的自我指导系统的发明方法,通过使用从文本中抽取知识的多语种系统,可以创建基于因特网的知识产业。实现该技术将在人类活动的不同领域中从质量上提供全新的信息服务,上述领域包括工业,科学,教育,文化,因为这是文明社会发展的时代要求。该方法的工业应用的其他远景方向是移动系统(移动因特网)。借助创建智能信息搜索系统的可能性支持所述方向,该搜索系统能够根据用户请求从因特网存储的大量原文文档中抽取特定知识和数据,所以只需花费最少的时间来传输、接收用户需要的信息。用户可以采用自然语言或语音向该系统输入请求。根据权利提出要求的方法的工业应用的一个重要方向是,在各种主题和问题领域内创建新一代的智能指导系统。
表1.句子框架
简单句的疑问句   基于句法分析知识库生成简单句的疑问句
复杂句或复合句包含的简单句的命名   简单句的特征
句子成分的分组的疑问句   基于作为指定分组的基础的句子成分的疑问句生成句子成分的分组的疑问句
句子成分的分组的命名   分组包括:谓词宾语副词句子独立成分插入词,单词组合和插入结构
句子的成分的疑问句   根据字典格式(包括介词)和索引表,把引语部分的疑问句翻译为句子成分的疑问句
句子成分的命名   实词,谓词(简单动词,复合动词,复合名词),定语(一致,不一致),宾语(直接,间接),状语(方式,地点,时间,量度或程度,原因,目的,条件,让步)
引语部分的疑问句   根据字典格式
引语部分及其特征   根据字典格式
单词   在句子上下文中
词干的随机索引   根据特殊算法计算或从字典格式中分离
表2.文本索引
    词干索引                                              段落索引
    Iξ1 (a)     Iξ2 (a) ...     Iξn (a)
    Iξ1 (u)     Iξ11 (s)     Iξ12 (s) ...     Iξ1n (s)
    Iξ2 (u)     Iξ21 (s)     Iξ22 (s) ...     Iξ2n (s)
    ...     ...      ... ...      ...
    Iξm (u)     Iξm1 (s)     Iξm2 (s) ...     Iξmn (s)
 表3.与指定题目有关的文本索引
  词干索引                                               段落索引
  Iξ1 (t)   Iξ2 (t) ...   Iξn (t)
  Iξ1 (u)   Iξ11 (s)   Iξ12 (s) ...   Iξ1n (s)
  Iξ2 (u)   Iξ21 (s)   Iξ22 (s) ...   Iξ2n (s)
  ...    ...   ... ...   ...
  Iξm (u)   Iξm1 (s)   Iξm2 (s) ...   Iξmn (s)

Claims (20)

1.用于综合从搜索系统使用的原文文档中抽取指定自然语言的知识的自学习系统的方法,该方法包括以下步骤:
提供随机索引人工智能系统形式的自学习机制,该系统基于随机信息索引的二态信号的唯一组合的应用;
通过使用随机索引的文本片段的等效转换和逻辑结论,通过根据所述片段形成链接的语义结构并对其进行随机索引处理以便用产生式规则进行表示,在语法和语义分析规则方面对系统进行自动指导;
执行形态分析并对所述语言的电子形式的语言文档进行随机索引处理,同时在形态分析规则方面对系统进行自动指导;
执行形态和句法分析,并对所述语言中与指定主题有关的电子形式的原文文档进行随机索引处理,同时在句法分析规则方面对系统进行自动指导;
对与指定主题有关的电子形式的随机索引的文档进行语义分析,同时在语义分析规则方面对系统进行自动指导;
用指定的自然语言形成用户请求,并且在随机索引处理后将电子形式的请求变换为疑问句;
把随机索引形式的用户请求变换为与所述用户请求等效的一组新请求;
根据用户请求初步选择包含所述新请求的所有单词组合的电子形式的原文文档的随机索引片段;
根据所述原文文档的随机索引片段生成随机索引语义结构;
根据所述结构,利用提供原文文档的随机索引片段之间的链接的逻辑结论,和文本的等效转换,该系统生成一个简短回复;
通过根据所述简短回复生成一个疑问句,并比较生成的疑问句和用户请求,检查所述简短回复和用户请求的关联性;
其中当生成的疑问句和用户请求相同时,确认所述简短回复和用户请求关联,并用指定自然语言向用户提供所述简短回复。
2.用于综合从搜索系统使用的原文文档中抽取任何指定自然语言的知识的自学习系统的方法,该方法包括以下步骤:
提供随机索引的人工智能系统形式的自学习机制,该系统基于随机信息索引的二态信号的唯一组合的应用,用于随机索引处理和搜索指定基础语言中的语言文本片段,包括语法和语义分析过程的描述,通过使用随机索引的语言文本片段的等效转换和逻辑结论,通过根据所述片段形成链接的语义结构并对所述结构进行随机索引处理以便用产生式规则进行表示,在语法和语义分析规则方面对系统进行自动指导;
执行形态分析并对指定基础语言的电子形式的语言文档进行随机索引处理,同时在形态分析规则方面对系统进行自动指导,构建用于每门指定外语的随机索引的字典数据库和语言文本索引表,以及形态分析的知识库,后者包含基础语言和每门指定外语的产生式规则;
执行形态和句法分析,对搜索系统中指定外语中的指定主题的电子形式的原文文档进行随机索引处理,把所述文档表示为原文文档的索引表,然后在随机索引的文本库中存储所述文档,同时通过使用基础语言中的随机索引的语言文本,在句法分析规则方面对系统进行自动指导,并构建基础语言和每门指定外语的句法分析知识库;
在指定主题上,对于电子形式的所述随机索引的原文文档进行语义分析,同时在语义分析规则方面对系统进行自动指导,并构建基础语言和每门指定外语的语义分析知识库;
用自然语言形成用户请求,并且在随机索引处理后将电子形式的请求变换为疑问句,后者包含确定用户请求的语义的疑问词组合和单词组合;
把随机索引形式的用户请求变换为与所述用户请求等效的一组新请求;
根据用户请求初步选择包含所述新请求的所有单词组合的电子形式的原文文档的随机索引片段;
根据所述原文文档的随机索引片段生成随机索引语义结构;
根据所述结构,利用提供原文文档的随机索引片段之间的链接的逻辑结论,和文本的等效转换,该系统生成一个简短回复,其中回复包含定义用户请求之语义的随机索引的单词组合,以及与用户请求的疑问词组合相对应的回复词组;
通过利用对应的随机索引的疑问词组合替换回复词组,并比较生成的疑问句和用户请求,检查所述简短回复和用户请求的关联性;
其中当生成的疑问句和用户请求相同时,确认所述简短回复和用户请求关联,并用指定外语向用户提供所述简短回复。
3.根据权利要求1或2的方法还包括,当不能生成与用户请求相同的疑问句时,请求从搜索系统的新的原文文档中搜索与用户请求有关的回复。
4.根据权利要求1-3之任一权利要求的方法还包括,依据用户请求,借助逻辑结论可以生成包含更详细信息或特定知识的完整回复以形成随机索引语义结构,以及所述原文文档片段的必要等效转换,以便获取提供所述简短回复的更详细内容的新的随机索引的文本。
5.根据权利要求1或2的方法,其中在形态分析规则方面对系统进行自动指导的步骤包括,在随机索引的文本中选择每个单词的词形的预定集合,提供词干的随机索引和根据随机索引的语言文本的所述索引进行随机访问的词尾、前缀、后缀和介词的预定集合,从中选择把词尾、前缀、后缀和介词的所述集合和与某个单词相对应的引语部分联系起来的片段,以及和由单词的词尾变化或动词变化引起的词尾、前缀、后缀和介词的全集关联的片段,通过随机索引把所述片段变换为产生式规则形式,其中以对应语言文本的若干片段为基础,利用自主推导提供每条规则的正确性,以及获取形态分析的知识库的产生式规则的索引表。
6.根据权利要求2-5之任一权利要求的方法,其中在使用形态分析的知识库的规则确定每个单词的引语部分后,语言文本的随机索引处理步骤包括,利用每个词干的随机索引和其词尾、前缀、后缀和介词的全集的随机索引填充字典的随机索引数据库。
7.根据权利要求2-6之任一权利要求的方法,其中构建文本索引表的步骤包括,随机转换信息并生成词干、其词尾、前缀、后缀、介词、句子、段落和文本标题的索引的唯一的二态组合,其中把索引放置到随机索引的文本库的索引表中,以及提供所述索引之间的链接,链接是原文规定的,并且通过使用索引表能够确保文本复原。
8.根据权利要求1或2的方法,其中在句法分析规则方面对系统进行自动指导的步骤包括,在随机索引的语言文本中,搜索用于描述句子的句法分析过程的片段;取得逻辑结论以获取用来定义句法元素、结构和单词的预定引语部分之间的链接的随机索引的语义结构;导出用来规定有关形态单词特征的句子的句法分析的产生式规则,其中根据对应语言文本的若干片段的自主推导提供每条规则的正确性,把生成的规则存储到句法分析的知识库中,进行随机索引处理并用索引表表示。
9.根据权利要求1或2的方法,其中在语义分析规则方面对系统进行自动指导的步骤还包括,参考词干和引语部分的随机索引形成语言文本的索引表的请求,未准确定义的句子成分,获取一个回复作为用于描述单词处理的语义特征的文本片段,以符合特定句子成分;以及根据所述回复,通过使用指定词干的随机索引和所需的语义特征,访问通用或专用字典和百科全书的索引表;以及依据逻辑结论,尝试确定用来链接指定单词和所需的语义特征的随机索引的语义结构;以及如果上述尝试成功,则确定所述句子成分是准确定义的;把与请求有关的文本片段转换为产生式规则,其中基于对应语言文本的若干片段的自主推导提供每条规则的正确性,把所述规则存储到语义分析的知识库中,进行随机索引处理并用索引表表示,以便在语义分析单词的句子成分和单词组合之间的链接时使用。
10.根据权利要求2-9之任一权利要求的方法还包括,在生成每个文本的索引表并对所述文本进行形态、句法和语义分析后,生成引语部分名称的随机索引,句子成分和与每个句子中的每个单词相对应的疑问句,把所述索引输入到所述文本的索引表中,以便在搜索文本片段时,自动确定每个单词所属的引语部分和句子成分,并说明所述单词的疑问句。
11.根据权利要求2-10之任一权利要求的方法还包括,在生成文本的所有索引表后,生成指定主题的索引表,其中利用词干的非重复的随机索引指定各行,各列对应于特定文本的随机索引;以及把包含特定词干索引的单词的文本段落的随机索引输入到所述表中,指定主题的索引表用于初步搜索包含用户请求的单词组合的预定集合的片段。
12.根据权利要求1-11之任一权利要求的方法,其中等效转换用户请求的步骤包括,使用同义词,即大约具有相同含义的词,并且以形态、句法和语义分析的随机索引规则为基础,在保留用户请求的含义的情况下替换引语部分和句子成分,以便提供用户请求的疑问句的单词组合的等效结构,并保持它们之间的语义关系。
13.根据权利要求1-12之任一权利要求的方法,其中生成包含用户请求的所有单词组合的语义链接文本片段的步骤包括,根据所述词干的随机索引,访问有关指定主题的文本索引表,选择包含用户请求的所有单词组合的段落和对应文本的随机索引,根据所述索引,访问每个选定文本的索引表;根据索引表和文本的等效转换获得逻辑结论,以便生成用来链接与用户请求的疑问词组合相对应的回复的词组的索引的随机索引语义结构,以及定义用户请求的语义并且由预先选择的段落组成的用户请求的所有单词组合。
14.根据权利要求13的方法还包括,使用根据逻辑结论生成的与用户请求相对应的随机索引语义结构,作为使用获得的文本片段集合生成与用户请求相同的疑问句的基础;基于所述知识库中的规则,利用词干和词尾、前缀、后缀和介词的随机索引的等效转换生成所述疑问句,以便提供用户请求的文本片段的每个单词组合的所需语义特征,以及基于单词组合之间的传递关系,使用逻辑结论以便将它们组合为与用户请求相同的包含回复词组的疑问句,回复词组与用户请求的疑问词组合相对应。
15.根据权利要求1-14之任一权利要求的方法,其中以原文文档的各种预先选择的随机索引片段为基础,通过生成所述回复的若干相同的随机索引语义结构来保证简短回复的正确性。
16.根据权利要求1-15之任一权利要求的方法还包括,在搜索处理和使用原文文档的索引表生成回复期间,通过生成链接该请求和有关简短回复的索引原文元素,系统进行自学习,以生成包含类型“请求回复”的元素的知识库,进行随机索引时,以索引表的形式提供,用于文本的句子的语法和语义分析,用于生成所述索引知识库中包含的重复请求的回复。
17.根据权利要求4-16之任一权利要求的方法,其中以简短回复为基础,借助获取文本片段时使用的索引表相应的逻辑结论,生成包含有关用户请求的知识的完整回复的步骤包括,生成用来把回复的词组链接到句子的词干的随机索引的随机索引语义结构,该链接保持传递关系,后者完全公开文本片段内的简短回复,从而通过以所述随机索引的语义结构为基础使用句子的等效转换,获得完整回复的链接文本。
18.根据权利要求1-17之任一权利要求的方法,其中随机索引的片段的等效转换包括,把每个句子表示为随机索引的单词词组的集合,借助公根词干、词尾、前缀、后缀和介词的随机索引的等效转换,通过使用形态、句法和语义知识库中存储的规则,转换所述组合,以生成新的引语部分或句子成分,其中在生成新的文本片段时,保持每个句子的随机索引语义结构中的单词组合之间的链接的稳定性,以及句子之间的一致性。
19.根据权利要求1-18之任一权利要求的方法还包括,在原文文档的随机索引处理中,当索引文本中出现新词时,即随机索引单词的字典或语言文本中不包含该词时,在字典中检索有关新词的公根词,在形态分析的知识库中检索把所述公根词等效转换为新词的规则;依据等效转换类型,确定新词所属的引语部分以及由词尾变化或动词变化生成的所有词形,
如果在字典中找不到公根词,则从文本中选择新词的词形的特定集合,通过使用随机索引字典或形态分析的产生式规则,基于所述词形的词尾、后缀和前缀,确定所述新词所属的引语部分,以及由词尾变化或动词变化生成的词形的全集。
20.根据权利要求2-19之任一权利要求的方法还包括,从指定外语的原文文档中同时抽取知识,所述同时抽取包括:
对于指定的基础语言,在形态、句法和语义分析规则方面自动指导系统;
通过使用指定基础语言的随机索引语言文本,构建随机索引字典的数据库以及形态、句法和语义分析的知识库;
通过使用所述数据库,自动生成用来自动指导采用任意指定外语的系统的请求,
根据所述请求,初步选择基础语言中的语言文本片段,该片段包含学习所述外语所需的知识,
对所述文本进行等效转换;
生成随机索引语义结构,基于所述结构获得逻辑结论,以便生成与自动生成的请求相关的回复,
使用所述请求以生成任意指定外语的形态、句法和语义分析的知识库,确保从指定外语的原文文档中抽取知识。
CNB028290321A 2002-05-28 2002-05-28 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法 Expired - Fee Related CN100392644C (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/RU2002/000258 WO2003100659A1 (fr) 2002-05-28 2002-05-28 Procede de synthese d'un systeme a auto-apprentissage d'extraction de connaissances a partir de documents textuels pour moteurs de recherche

Publications (2)

Publication Number Publication Date
CN1628298A true CN1628298A (zh) 2005-06-15
CN100392644C CN100392644C (zh) 2008-06-04

Family

ID=29580128

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB028290321A Expired - Fee Related CN100392644C (zh) 2002-05-28 2002-05-28 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法

Country Status (10)

Country Link
US (1) US20050071150A1 (zh)
EP (1) EP1508861A1 (zh)
JP (1) JP2005535007A (zh)
KR (1) KR20040111715A (zh)
CN (1) CN100392644C (zh)
AU (1) AU2002323853A1 (zh)
CA (1) CA2487739A1 (zh)
HK (1) HK1077380A1 (zh)
NO (1) NO20045285L (zh)
WO (1) WO2003100659A1 (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154239B (zh) * 2006-09-29 2012-06-20 株式会社东芝 将表状数据变换成结构化文档的系统及方法
CN101796511B (zh) * 2007-08-31 2012-11-14 微软公司 标识间接引语中的语义关系
CN102982018A (zh) * 2011-06-13 2013-03-20 索尼公司 信息处理设备、信息处理方法和程序
CN104572630A (zh) * 2013-10-16 2015-04-29 国际商业机器公司 确定代表自然语句的主题的术语的组合的方法和系统
CN104850554A (zh) * 2014-02-14 2015-08-19 北京搜狗科技发展有限公司 一种搜索方法和系统
CN105468663A (zh) * 2015-02-12 2016-04-06 国网山东省电力公司潍坊供电公司 一种基于云模型的智能决策电网知识库的搭建方法
CN106155999A (zh) * 2015-04-09 2016-11-23 科大讯飞股份有限公司 自然语言语义理解方法及系统
CN106469214A (zh) * 2016-09-06 2017-03-01 北京百度网讯科技有限公司 基于人工智能的信息呈现方法和装置
CN110390049A (zh) * 2019-07-10 2019-10-29 北京航空航天大学 一种面向软件开发问题的答案自动生成方法
CN110647618A (zh) * 2018-06-27 2020-01-03 奥多比公司 对话查询应答系统
CN111950646A (zh) * 2020-08-20 2020-11-17 北京环境特性研究所 电磁图像的层次化知识模型构建方法及目标识别方法
CN112384907A (zh) * 2018-07-18 2021-02-19 国际商业机器公司 与文本挖掘集成的规范编辑系统
CN112511410A (zh) * 2015-02-12 2021-03-16 谷歌有限责任公司 用于确定回复内容的方法、系统和介质
CN112651226A (zh) * 2020-09-21 2021-04-13 深圳前海黑顿科技有限公司 基于依存句法树的知识解析系统及方法

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6741990B2 (en) * 2001-05-23 2004-05-25 Intel Corporation System and method for efficient and adaptive web accesses filtering
US7127520B2 (en) 2002-06-28 2006-10-24 Streamserve Method and system for transforming input data streams
US7047226B2 (en) * 2002-07-24 2006-05-16 The United States Of America As Represented By The Secretary Of The Navy System and method for knowledge amplification employing structured expert randomization
US7296260B2 (en) * 2003-02-26 2007-11-13 Inventec Corporation System and method for composing a multi-lingual instructional software
US7328156B2 (en) * 2003-07-17 2008-02-05 International Business Machines Corporation Computational linguistic statements for providing an autonomic computing environment
US8869061B1 (en) 2003-08-29 2014-10-21 Microsoft Corporation User interface for searching an electronic document
TWI290687B (en) * 2003-09-19 2007-12-01 Hon Hai Prec Ind Co Ltd System and method for search information based on classifications of synonymous words
US7590936B1 (en) * 2003-09-30 2009-09-15 Microsoft Corporation Method for extracting information associated with a search term
US20050120009A1 (en) * 2003-11-21 2005-06-02 Aker J. B. System, method and computer program application for transforming unstructured text
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
EP1697300A4 (en) * 2003-12-24 2007-10-03 Univ Louisville Res Found BONE TISSUE TARGETING COMPOUNDS FOR ADMINISTRATION TO BONE OF CON US AGENTS FOR INTERACTING WITH BONE
US7562008B2 (en) * 2004-06-23 2009-07-14 Ning-Ping Chan Machine translation method and system that decomposes complex sentences into two or more sentences
JP2006091994A (ja) * 2004-09-21 2006-04-06 Toshiba Corp 文書情報処理装置および方法、文書情報処理プログラム
US9104779B2 (en) * 2005-03-30 2015-08-11 Primal Fusion Inc. Systems and methods for analyzing and synthesizing complex knowledge representations
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US7912701B1 (en) 2005-05-04 2011-03-22 IgniteIP Capital IA Special Management LLC Method and apparatus for semiotic correlation
KR100614762B1 (ko) * 2005-06-03 2006-08-22 주식회사 우량정보기술 케이엠에스 및 엘엠에스 통합에 의한 컨텐츠 제공방법 및이를 실행하기 위한 프로그램이 기록된 기록매체
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US20070005679A1 (en) * 2005-06-21 2007-01-04 Bui Richard T Server-client hybrid search systems, methods, and apparatuses
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora
US7788263B2 (en) 2005-08-10 2010-08-31 Microsoft Corporation Probabilistic retrospective event detection
US8572088B2 (en) * 2005-10-21 2013-10-29 Microsoft Corporation Automated rich presentation of a semantic topic
US7644048B2 (en) * 2005-10-28 2010-01-05 General Dynamics Advanced Information Systems, Inc. System, method and software for cognitive automation
WO2007053911A1 (en) * 2005-11-14 2007-05-18 Fumitaka Noda Multi language exchange system
US8019714B2 (en) * 2005-12-12 2011-09-13 Qin Zhang Thinking system and method
US7930319B2 (en) * 2008-01-10 2011-04-19 Qin Zhang Search method and system using thinking system
US7962328B2 (en) * 2006-03-13 2011-06-14 Lexikos Corporation Method and apparatus for generating a compact data structure to identify the meaning of a symbol
US20070260450A1 (en) * 2006-05-05 2007-11-08 Yudong Sun Indexing parsed natural language texts for advanced search
US8229730B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Indexing role hierarchies for words in a search index
US8316036B2 (en) 2007-08-31 2012-11-20 Microsoft Corporation Checkpointing iterators during search
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
US8712758B2 (en) * 2007-08-31 2014-04-29 Microsoft Corporation Coreference resolution in an ambiguity-sensitive natural language processing system
US8346756B2 (en) * 2007-08-31 2013-01-01 Microsoft Corporation Calculating valence of expressions within documents for searching a document index
US8229970B2 (en) * 2007-08-31 2012-07-24 Microsoft Corporation Efficient storage and retrieval of posting lists
US8280721B2 (en) * 2007-08-31 2012-10-02 Microsoft Corporation Efficiently representing word sense probabilities
US8041697B2 (en) * 2007-08-31 2011-10-18 Microsoft Corporation Semi-automatic example-based induction of semantic translation rules to support natural language search
US8639708B2 (en) * 2007-08-31 2014-01-28 Microsoft Corporation Fact-based indexing for natural language search
US8868562B2 (en) * 2007-08-31 2014-10-21 Microsoft Corporation Identification of semantic relationships within reported speech
US20090070322A1 (en) * 2007-08-31 2009-03-12 Powerset, Inc. Browsing knowledge on the basis of semantic relations
US7984032B2 (en) * 2007-08-31 2011-07-19 Microsoft Corporation Iterators for applying term occurrence-level constraints in natural language searching
US8996433B2 (en) * 2007-10-11 2015-03-31 Steven Ginzberg Automated natural language formula translator and data evaluator
US20090198488A1 (en) * 2008-02-05 2009-08-06 Eric Arno Vigen System and method for analyzing communications using multi-placement hierarchical structures
US8370128B2 (en) * 2008-09-30 2013-02-05 Xerox Corporation Semantically-driven extraction of relations between named entities
CN101876981B (zh) * 2009-04-29 2015-09-23 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
TW201118619A (en) * 2009-11-30 2011-06-01 Inst Information Industry An opinion term mining method and apparatus thereof
US8457948B2 (en) * 2010-05-13 2013-06-04 Expedia, Inc. Systems and methods for automated content generation
US9317595B2 (en) 2010-12-06 2016-04-19 Yahoo! Inc. Fast title/summary extraction from long descriptions
US20120215712A1 (en) * 2011-02-17 2012-08-23 Tariq Malki System and database for education
CN103562907B (zh) * 2011-05-10 2016-12-07 日本电气株式会社 用于评估同义表达的设备、方法和程序
US9201868B1 (en) * 2011-12-09 2015-12-01 Guangsheng Zhang System, methods and user interface for identifying and presenting sentiment information
US9037452B2 (en) * 2012-03-16 2015-05-19 Afrl/Rij Relation topic construction and its application in semantic relation extraction
CN102651014B (zh) * 2012-03-29 2014-10-22 华侨大学 基于概念关系的领域数据语义的检索方法
GB2513537A (en) 2012-12-20 2014-11-05 Ibm Natural language processing
US9201860B1 (en) 2013-03-12 2015-12-01 Guangsheng Zhang System and methods for determining sentiment based on context
KR20150026305A (ko) * 2013-09-02 2015-03-11 최승철 언어 학습프로그램 및 이를 기록한 컴퓨터로 읽을 수 있는 기록매체
US9916284B2 (en) 2013-12-10 2018-03-13 International Business Machines Corporation Analyzing document content and generating an appendix
KR101590908B1 (ko) * 2013-12-24 2016-02-03 서강대학교산학협력단 채팅 데이터 학습 및 서비스 방법 및 그에 따른 시스템
US20160110394A1 (en) * 2014-10-15 2016-04-21 Bart Boxwell Obituary Alerting System and Method of Use
US9886665B2 (en) 2014-12-08 2018-02-06 International Business Machines Corporation Event detection using roles and relationships of entities
KR101686919B1 (ko) * 2016-01-07 2016-12-16 주식회사 엑셈 빅데이터에 기반한 추론 엔진을 관리하는 방법 및 장치
US10606921B2 (en) * 2016-05-27 2020-03-31 Open Text Sa Ulc Document architecture with fragment-driven role-based access controls
US10671928B2 (en) 2016-08-30 2020-06-02 International Business Machines Corporation Adaptive analytical modeling tool
WO2018083804A1 (ja) 2016-11-07 2018-05-11 富士通株式会社 分析プログラム、情報処理装置および分析方法
KR101970294B1 (ko) * 2017-03-06 2019-04-18 네이버 주식회사 항목 추천 장치, 방법 및 컴퓨터 프로그램
WO2019088084A1 (ja) * 2017-11-06 2019-05-09 昭和電工株式会社 因果文解析装置、因果文解析システム、プログラム、及び因果文解析方法
CN107977415B (zh) * 2017-11-22 2019-02-05 北京寻领科技有限公司 自动问答方法及装置
WO2019169039A1 (en) * 2018-02-28 2019-09-06 Northrup Charles System and method for a thing machine to perform models
CN111444399B (zh) * 2020-03-30 2022-10-25 腾讯科技(深圳)有限公司 回复内容的生成方法、装置、设备及可读存储介质
CN111737572B (zh) * 2020-06-17 2024-01-30 北京字节跳动网络技术有限公司 搜索语句生成方法、装置和电子设备
CN113641778B (zh) * 2020-10-30 2024-07-12 浙江华云信息科技有限公司 一种对话文本的主题识别方法
EP4327329A1 (en) * 2021-04-22 2024-02-28 Smart Reporting GmbH Methods and systems for structuring medical report texts
CN114064855B (zh) * 2021-11-10 2024-05-17 国电南瑞南京控制系统有限公司 一种基于变压器知识库的信息检索方法及系统
CN114281945B (zh) * 2021-12-28 2024-02-27 合肥工业大学 基于绿色产品案例库的减碳策略知识库的构建方法
US11888793B2 (en) 2022-02-22 2024-01-30 Open Text Holdings, Inc. Systems and methods for intelligent delivery of communications
CN114706941B (zh) * 2022-03-03 2023-04-18 广州万辉信息科技有限公司 一种专利监控平台及方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5454106A (en) * 1993-05-17 1995-09-26 International Business Machines Corporation Database retrieval system using natural language for presenting understood components of an ambiguous query on a user interface
CA2193803C (en) * 1994-06-22 2004-12-07 Bruce G. Molloy A system and method for representing and retrieving knowledge in an adaptive cognitive network
US5642502A (en) * 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
US5717913A (en) * 1995-01-03 1998-02-10 University Of Central Florida Method for detecting and extracting text data using database schemas
US6498921B1 (en) * 1999-09-01 2002-12-24 Chi Fai Ho Method and system to answer a natural-language question
US6269368B1 (en) * 1997-10-17 2001-07-31 Textwise Llc Information retrieval using dynamic evidence combination
KR980004126A (ko) * 1997-12-16 1998-03-30 양승택 다국어 웹 문서 검색을 위한 질의어 변환 장치 및 방법
US6101492A (en) * 1998-07-02 2000-08-08 Lucent Technologies Inc. Methods and apparatus for information indexing and retrieval as well as query expansion using morpho-syntactic analysis
RU2166208C2 (ru) * 1999-04-29 2001-04-27 Халин Евгений Васильевич Способ автоматизированного приобретения знаний по безопасности производства
US6446064B1 (en) * 1999-06-08 2002-09-03 Albert Holding Sa System and method for enhancing e-commerce using natural language interface for searching database
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6963863B1 (en) * 1999-09-28 2005-11-08 Thomas Bannon Network query and matching system and method
DE19952769B4 (de) * 1999-11-02 2008-07-17 Sap Ag Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache
US20030074353A1 (en) * 1999-12-20 2003-04-17 Berkan Riza C. Answer retrieval technique
US6829603B1 (en) * 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US6701309B1 (en) * 2000-04-21 2004-03-02 Lycos, Inc. Method and system for collecting related queries
US6728728B2 (en) * 2000-07-24 2004-04-27 Israel Spiegler Unified binary model and methodology for knowledge representation and for data and information mining
US6778951B1 (en) * 2000-08-09 2004-08-17 Concerto Software, Inc. Information retrieval method with natural language interface
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US20020165860A1 (en) * 2001-05-07 2002-11-07 Nec Research Insititute, Inc. Selective retrieval metasearch engine
US6654740B2 (en) * 2001-05-08 2003-11-25 Sunflare Co., Ltd. Probabilistic information retrieval based on differential latent semantic space
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101154239B (zh) * 2006-09-29 2012-06-20 株式会社东芝 将表状数据变换成结构化文档的系统及方法
CN101796511B (zh) * 2007-08-31 2012-11-14 微软公司 标识间接引语中的语义关系
CN102982018A (zh) * 2011-06-13 2013-03-20 索尼公司 信息处理设备、信息处理方法和程序
CN104572630B (zh) * 2013-10-16 2017-08-29 国际商业机器公司 确定代表自然语句的主题的术语的组合的方法和系统
CN104572630A (zh) * 2013-10-16 2015-04-29 国际商业机器公司 确定代表自然语句的主题的术语的组合的方法和系统
CN104850554A (zh) * 2014-02-14 2015-08-19 北京搜狗科技发展有限公司 一种搜索方法和系统
CN104850554B (zh) * 2014-02-14 2020-05-19 北京搜狗科技发展有限公司 一种搜索方法和系统
CN112511410A (zh) * 2015-02-12 2021-03-16 谷歌有限责任公司 用于确定回复内容的方法、系统和介质
CN112511410B (zh) * 2015-02-12 2023-10-10 谷歌有限责任公司 用于确定回复内容的方法、系统和介质
CN105468663A (zh) * 2015-02-12 2016-04-06 国网山东省电力公司潍坊供电公司 一种基于云模型的智能决策电网知识库的搭建方法
CN106155999A (zh) * 2015-04-09 2016-11-23 科大讯飞股份有限公司 自然语言语义理解方法及系统
CN106469214A (zh) * 2016-09-06 2017-03-01 北京百度网讯科技有限公司 基于人工智能的信息呈现方法和装置
CN106469214B (zh) * 2016-09-06 2019-10-15 北京百度网讯科技有限公司 基于人工智能的信息呈现方法和装置
CN110647618A (zh) * 2018-06-27 2020-01-03 奥多比公司 对话查询应答系统
CN112384907A (zh) * 2018-07-18 2021-02-19 国际商业机器公司 与文本挖掘集成的规范编辑系统
CN112384907B (zh) * 2018-07-18 2024-05-28 国际商业机器公司 与文本挖掘集成的规范编辑系统
CN110390049B (zh) * 2019-07-10 2022-01-28 北京航空航天大学 一种面向软件开发问题的答案自动生成方法
CN110390049A (zh) * 2019-07-10 2019-10-29 北京航空航天大学 一种面向软件开发问题的答案自动生成方法
CN111950646A (zh) * 2020-08-20 2020-11-17 北京环境特性研究所 电磁图像的层次化知识模型构建方法及目标识别方法
CN112651226A (zh) * 2020-09-21 2021-04-13 深圳前海黑顿科技有限公司 基于依存句法树的知识解析系统及方法
CN112651226B (zh) * 2020-09-21 2022-03-29 深圳前海黑顿科技有限公司 基于依存句法树的知识解析系统及方法

Also Published As

Publication number Publication date
JP2005535007A (ja) 2005-11-17
CA2487739A1 (en) 2003-12-04
US20050071150A1 (en) 2005-03-31
EP1508861A1 (en) 2005-02-23
AU2002323853A1 (en) 2003-12-12
CN100392644C (zh) 2008-06-04
HK1077380A1 (en) 2006-02-10
NO20045285L (no) 2005-02-16
WO2003100659A1 (fr) 2003-12-04
KR20040111715A (ko) 2004-12-31

Similar Documents

Publication Publication Date Title
CN1628298A (zh) 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法
CN1266624C (zh) 学习支持系统
CN101079026A (zh) 文本相似度、词义相似度计算方法和系统及应用系统
CN1155906C (zh) 数据处理方法、系统、处理程序及记录媒体
CN1608259A (zh) 机器翻译
CN1578954A (zh) 机器翻译
CN1110757C (zh) 处理两种文字对照的数据库的方法与装置
CN1204515C (zh) 自由格式数据处理的方法和设备
CN1245577A (zh) 基于提问的学习方法和系统
CN1083952A (zh) 文件写作与翻译综合系统
CN1535433A (zh) 基于分类的可扩展交互式文档检索系统
CN1328321A (zh) 通过语音提供信息的装置和方法
CN1271545C (zh) 语言翻译系统
CN1862529A (zh) 语言分析系统及方法
CN1365470A (zh) 构造和使用知识库的方法
CN1794233A (zh) 一种网上用户交互问答方法及其系统
CN1495639A (zh) 文本语句比较装置
CN1573759A (zh) 公共查询运行期系统以及应用编程接口
CN1750003A (zh) 信息处理装置,信息处理方法,和程序
CN1452083A (zh) 字符信息的转换处理系统
CN1855103A (zh) 特定元素、字符串向量生成及相似性计算的装置、方法
CN1620659A (zh) 多种语言的数据库创建系统和方法
CN1809829A (zh) 数据库装置和作成方法、数据库检索装置及检索方法
CN1647069A (zh) 对话控制系统和对话控制方法
CN1266633C (zh) 语音查询中的辨音方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1077380

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1077380

Country of ref document: HK

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080604