CN103443787A - 用于标识文本关系的系统 - Google Patents
用于标识文本关系的系统 Download PDFInfo
- Publication number
- CN103443787A CN103443787A CN2012800142868A CN201280014286A CN103443787A CN 103443787 A CN103443787 A CN 103443787A CN 2012800142868 A CN2012800142868 A CN 2012800142868A CN 201280014286 A CN201280014286 A CN 201280014286A CN 103443787 A CN103443787 A CN 103443787A
- Authority
- CN
- China
- Prior art keywords
- words
- verb
- preposition
- mark
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Stored Programmes (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Communication Control (AREA)
Abstract
一种计算机实施的方法标识文本语句关系。标识包括第一文本语句和第二文本语句的文本语句对,并且从第一文本语句和第二文本语句提取解析的单词组。比较解析的单词组,并且计算用于每个语句对的解析的单词分数。创建和比较用于第一文本语句和第二文本语句的单词矢量。基于用于第一文本语句和第二文本语句的单词矢量的比较计算单词矢量分数。为文本语句对确定匹配分数,其中匹配分数代表解析的单词分数和单词矢量分数中的至少一项。
Description
优先权要求
本申请要求来自2011年2月1日提交的第291/CHE/2011号印度临时专利申请、2011年8月5日提交的第291/CHE/2011号印度非临时专利申请和2011年12月14日提交的第13/325,596号美国专利申请的优先权,通过引用而并入这些专利申请中的每份专利申请。
技术领域
本说明书总体上涉及需求分析的领域并且更具体地涉及标识技术需求的领域。
背景技术
企业、客户和其他公司(“企业”)可能希望让硬件、软件或者硬件和软件的各种组合被开发或者实施。企业可能具有每个企业可能希望已经在硬件和软件实现方式中代表或者以其他方式包括的一个或者多个需求。企业可以在一些境况中联系或者雇用一个或者多个硬件或者软件提供商或者销售商以开发和实施希望的硬件和软件。
发明内容
一种计算机实施的方法标识文本语句关系。标识包括第一文本语句和第二文本语句的文本语句对,并且从第一文本语句和第二文本语句提取解析的单词组对。比较解析的单词组,并且计算用于每个语句对的解析的单词分数。创建和比较用于第一文本语句和第二文本语句的单词矢量。基于用于第一文本语句和第二文本语句的单词矢量的比较计算单词矢量分数。为文本语句对确定匹配分数,其中匹配分数代表解析的单词分数和单词矢量分数中的至少一项。
在一些情况下,从第一文本语句集选择第一文本语句,并且可以从第二文本语句集选择第二文本语句。在一些系统中,第一文本语句集可以是需求语句集,并且第二文本语句集可以是过程模型能力集。在一些系统中,可以为多个文本语句对确定匹配分数,每个文本语句对可能包括来自需求语句集的一个需求语句和/或来自过程模型能力集的一个能力语句。在一些情况下,标识文本关系可以包括为每个需求语句可视地显示在也包括需求语句的文本语句对中包括的能力语句的列表。在包括列表时,可以基于用于包括需求语句和相应能力语句的文本语句对的匹配分数对能力语句的列表排序。
附加地或者备选地,用于文本语句对的单词矢量分数可以是第一单词矢量和第二单词矢量的加权余弦相似度。在这些系统中的一些系统中,第一单词矢量可以包括用于第一单词集的每个单词的数值和/或第二单词矢量可以包括用于第二单词集的每个单词的数值。在一些系统中,可以在来自第一单词集或者第二单词集的单词是动词、宾语或者介词时增加用于该单词的数值。
在一些情况下,每个解析的单词组是包括来自每个相应文本语句的动词、宾语和介词的动词-宾语-介词(VOP)三元组。在一些系统中,解析的单词组对可以包括多个词项对,该多个词项对可能包括:动词对,具有来自用于第一单词组的VOP三元组的动词和来自用于第二单词组的VOP三元组的动词;宾语对,包括来自用于第一单词组的VOP三元组的宾语和来自用于第二单词组的VOP三元组的宾语;以及介词对,具有来自用于第一单词组的VOP三元组的介词和来自用于第二单词组的VOP三元组的介词。
为文本语句对计算解析的单词分数可以包括计算动词对子分数、宾语对子分数和介词对子分数。在一些系统中,每个对子分数的计算可以包括计算串相似度分数,串相似度分数分别基于动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较。附加地或者备选地,每个对子分数的计算可以包括计算语义相似度分数,语义相似度分数基于在动词对、宾语对或者介词对的每个动词、宾语或者介词之间的语义关系。附加地或者备选地,每个对子分数的计算可以包括计算词典相似度分数,词典相似度分数基于动词对、宾语对或者介词对的每个动词、宾语或者介词在分类法中的相对位置。附加地或者备选地,每个对子分数的计算可以包括比较串相似度分数、语义相似度分数和词典相似度,其中对子分数基于串相似度分数、语义相似度分数和词典相似度分数中的至少一项。解析的单词分数可以是动词对子分数、宾语对子分数和介词对子分数中的至少一项的乘积。
在一些情况下,为文本语句对计算解析的单词分数包括计算动词对子分数、宾语对子分数和介词对子分数。每个对子分数的计算可以包括分别基于动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较计算串相似度分数。附加地或者备选地,每个对子分数的计算可以包括在串相似度分数未分别指示动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时计算语义相似度分数和词典相似度分数。另外,每个对子分数的计算可以包括在串相似度分数未分别指示动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时比较语义相似度分数和词典相似度分数。子分数可以在串相似度分数分别指示动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时是串相似度分数。附加地或者备选地,子分数可以在串相似度分数未分别指示动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时是语义相似度分数和词典相似度分数中的最大值。附加地或者备选地,解析的单词分数可以是动词对子分数、宾语对子分数和介词对子分数中的至少一项的乘积。
根据另一方面,可以提供一种用于文本语句关系标识的系统。该系统可以包括被配置用于存储第一文本语句集和第二文本语句集的数据库。该系统可以包括具有非瞬态计算机可读存储介质的文本分析系统,该存储介质具有在其中存储的数据,该数据代表可由编程的处理器执行的指令。存储介质可以包括用于标识包括第一文本语句和第二文本语句的文本语句对的指令,第一文本语句包括第一单词集,并且第二文本语句包括第二单词集。存储介质可以包括用于通过使用至少一个处理器从文本语句对提取解析的单词组对的指令,其中解析的单词组对包括来自第一文本语句的第一解析的单词组和来自第二文本语句的第二解析的单词组。存储介质可以包括用于为文本语句对比较第一解析的单词组和第二解析的单词组的指令。存储介质可以包括用于通过使用至少一个处理器为文本语句对计算解析的单词分数的指令,其中解析的单词分数基于第一解析的单词组和第二解析的单词组的比较。存储介质可以包括用于基于第一单词集创建第一单词矢量的指令。附加地或者备选地,存储介质可以包括用于基于第二单词集创建第二单词矢量的指令。存储介质可以包括用于为文本语句对比较第一单词矢量和第二单词矢量的指令。附加地或者备选地,存储介质可以包括用于通过使用至少一个处理器为文本语句对计算单词矢量分数的指令,其中单词矢量分数基于第一单词矢量和第二单词矢量的比较。存储介质可以包括用于为文本语句对确定匹配分数的指令,其中匹配分数基于解析的单词分数和单词矢量分数中的至少一项。
在一些情况下,第一文本语句可以是从需求语句集选择的需求语句。附加地或者备选地,第二文本语句可以是从过程模型能力集选择的能力语句。可以为多个文本语句对确定匹配分数,每个文本语句对包括来自需求语句集的一个需求语句和来自过程模型能力集的一个能力语句。存储介质可以包括用于为每个需求语句可视地显示在也包括需求语句的文本语句对中包括的能力语句的列表的指令。可以基于用于包括需求语句和相应能力语句的文本语句对的匹配分数对能力语句的每个列表排序。用于文本语句对的单词矢量分数可以是第一单词矢量和第二单词矢量的加权余弦相似度。附加地或者备选地,第一单词矢量可以包括用于第一单词集的每个单词的数值。附加地或者备选地,第二单词矢量可以包括用于第二单词集的每个单词的数值,并且其中可以在来自第一单词集或者第二单词集的单词是动词、宾语或者介词时增加用于该单词的数值。
在一些系统中,每个解析的单词组可以是包括来自每个相应文本语句的动词、宾语和介词的动词-宾语-介词(VOP)三元组。解析的单词组对可以包括多个词项对,该多个词项对可能包括:动词对,包括来自用于第一单词组的VOP三元组的动词和来自用于第二单词组的VOP三元组的动词;宾语对,具有来自用于第一单词组的VOP三元组的宾语和来自用于第二单词组的VOP三元组的宾语;以及介词对,包括来自用于第一单词组的VOP三元组的介词和来自用于第二单词组的VOP三元组的介词。
在一些情况下,用于为文本语句对计算解析的单词分数的指令可以包括用于计算动词对子分数、宾语对子分数和介词对子分数的指令。每个对子分数的计算可以包括用于计算串相似度分数的指令,串相似度分数分别基于动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较。每个对子分数的计算可以包括用于计算语义相似度分数的指令,语义相似度分数基于在动词对、宾语对或者介词对的每个动词、宾语或者介词之间的语义关系。每个对子分数的计算可以附加地或者备选地包括用于计算词典相似度分数的指令,词典相似度分数基于动词对、宾语对或者介词对的每个动词、宾语或者介词在分类法中的相对位置。每个对子分数的计算可以包括用于比较串相似度分数、语义相似度分数和词典相似度的指令,其中对子分数可以基于串相似度分数、语义相似度分数和词典相似度分数中的至少一项。附加地或者备选地,解析的单词分数可以是动词对子分数、宾语对子分数和介词对子分数中的至少一项的乘积。
根据另一方面,可以提供一种被配置用于为文本语句对计算匹配分数的处理器。该处理器可以包括被配置用于从文本语句对提取解析的单词组对的词项提取器,解析的单词组对包括多个词项对。处理器可以包括解析的词项匹配器。解析的词项匹配器可以包括被配置用于为每个词项对计算串相似度分数的串匹配器。附加地或者备选地,解析的词项匹配器可以包括被配置用于为每个词项对计算语义相似度分数的语义匹配器。另外,解析的词项匹配器可以包括被配置用于为每个词项对计算词典相似度分数的词典匹配器。附加地,解析的词项匹配器可以被配置用于基于串相似度分数、语义相似度分数和词典相似度分数中的至少一项为文本语句对计算解析的单词分数。
另外,处理器可以包括单词矢量匹配器。词项提取器可以被配置用于为文本语句对的每个文本语句生成单词矢量。附加地或者备选地,单词矢量匹配器可以被配置用于比较生成的单词矢量并且基于该比较计算单词矢量分数。在一些情况下,处理器可以被配置用于计算总匹配分数,总匹配分数基于解析的单词分数和单词矢量分数中的至少一项。在一些系统中,多个词项对可以包括:动词对,具有来自用于第一单词组的VOP三元组的动词和来自用于第二单词组的VOP三元组的动词;宾语对,包括来自用于第一单词组的VOP三元组的宾语和来自用于第二单词组的VOP三元组的宾语;以及介词对,具有来自用于第一单词组的VOP三元组的介词和来自用于第二单词组的VOP三元组的介词。
另外,解析的词项匹配器可以计算动词对子分数、宾语对子分数和介词对子分数。该计算可以包括用串匹配器为每个词项对计算串相似度分数,串相似度分数分别基于动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较。该计算可以包括在串相似度分数未分别指示动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时为每个词项对用语义匹配器计算语义相似度分数和用词典匹配器计算词典相似度分数。该计算可以附加地或者备选地包括在串相似度分数未分别指示动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时比较语义相似度分数和词典相似度分数。附加地或者备选地,该计算可以包括在串相似度分数分别指示动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时标识串相似度分数作为子分数。在一些系统中,该计算可以包括在串相似度分数未分别指示动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时标识语义相似度分数和词典相似度分数中的最大值作为子分数。解析的单词分数的计算可以包括取动词对子分数、宾语对子分数和介词对子分数中的至少一项的乘积。
其他系统、方法和特征在考察以下图和具体描述时将为或者将变成为本领域技术人员所清楚。另外,以上提到的并且以下更具体描述的方面和实施例的特征可以与其他方面和实施例的特征组合以形成新方面和实施例。所有这样的附加系统、方法和特征旨在于被包括于本说明书内、在公开内容的范围内并且受所附权利要求保护。
附图说明
可以参照以下附图和描述更好地理解系统。图中的部件而未必按比例,代之以强调图示公开内容的原理。另外,在图中,相似标号贯穿不同视图表示对应部分。
图1示出可以在用于标识文本关系的系统中使用的过程模型的示例。
图2示出可以用于标识文本关系的匹配系统的示例。
图3示出可以与匹配系统一起使用的语义图形的示例。
图4示出可以用于标识文本关系的方法的示例。
图5示出可以用于标识文本关系的方法的示例。
图6示出可以用于标识文本关系的方法的示例。
图7示出可以用于标识文本关系的方法的示例。
图8示出关于与用于标识文本关系的示例过程有关的阈值和度量的信息。
图9示出用于标识文本关系的系统的示例界面的屏幕截图。
图10示出用于标识文本关系的系统和方法的示例性处理系统。
具体实施方式
可以创建、修改并且按照每个特定企业的具体需要来定制大型企业软件实现方式。软件提供商或者其他销售商可以在可能时部分或者完全基于软件提供商或者销售商可能已经先前创建或者向其他企业供应的公共软件实现方式或者标准软件包、借助或者使用这些公共软件实现方式或者标准软件包来为每个企业创建这样的软件实现方式。使实现方式基于标准供应可以通过利用以往经验并且经常通过重用资产(比如软件或者代码)来减少成本和风险。
在创建具体定制的软件实现方式时成功运用公共软件实现方式和标准软件包的部分可以使需求定义过程从纯启发过程转变成具有差距分析要素的过程。在这些情形中,理解在顾客想要什么(这可以是需求)与预定义供应可以做什么(这可以是能力)之间的关系可以是重要的。
为了有助于和系统化将标准供应应用于企业软件需要的这一过程,开发和维护参考模型、能力模型或者过程模型(“过程模型”)可以是重要的。一个这样的模型的示例可以是公司的业务过程贮存库。过程模型可以包括参考能力和过程模型要素(“过程模型能力”)以及用于范畴(domain)或者行业的可重用非自然组成。行业专属过程模型可以捕获在行业或者范畴中被反复实施(有潜在大变化)的过程和能力。它们可以代表在不同行业和范畴中的标准过程(和变化)。范畴可以用来指代感兴趣的区域。在一些系统中,范畴可以是包含如下系统的活动范围、领域或者软件区域,这些系统共享共性。范畴可以是垂直行业(例如,化工行业或者银行行业)或者更广的区域,比如金融或者运输。在一些实例中,可以选择范畴或者区域,并且可以为选择的范畴或者区域创建过程模型。
图1图示基于示例业务过程贮存库的过程模型的一个示例。图1的行业专属过程模型100是过程模型能力的分级模型,并且可以包括一个或者多个父子关系。能力可以代表在业务技术范畴中的一个或者多个功能。例如,能力可以在功能、数据、查询和/或事务方面描述软件。在过程模型100的最高级可以包括通用能力,比如“订单到现金”能力110和“生产产品”能力115。过程模型100的每个后续级可以具有子代能力,这些能力是更具体或者粒度的功能,比如“创建发票”能力120和“检查顾客信用”能力145。
可以需要子代能力以实施父代能力。例如,“订单到现金”能力110可以具有子能力,比如“创建发票”能力120、“创建销售订单”能力136和“管理顾客订单”能力150。在一些系统中,也可以存在一些关联过程,这些过程使用业务过程语言(如例如业务过程模型和符号表示(“BPMN”))来概括在能力之间的排序约束。
生成、创建或者修改既满足客户需要又尽可能多地利用预定义供应和过程模型的软件实现方式可以包括通过组合来自利益相关者的需求的自下而上启发和从参考或者过程模型推导的需求的自上而下采用来开发最终需求。需求可以是、代表或者描述企业或者其他客户可以在软件实现方式中希望或者需求的一个或者多个功能、特征、方法、动作或者过程。需求可以定义软件实现方式的范围的部分。例如,附加需求可以造成增加的应用范围,而更少需求可以造成减少的应用范围。需求可以附加地备选地规定软件实现方式如何对用户交互做出响应。可以将需求和能力实施为文本语句。将需求映射到过程模型的过程可以例如通过从寻求定制的软件实现方式的企业接收或者以其他方式标识文本需求的列表来开始。然后可以将接收或者标识的文本需求的列表映射到用于该行业的过程模型。
用于映射文本需求的匹配系统可以对于最大化精确度和准确度而考虑和限制或者消除与比例、语言复杂性、隐含细节或者高频词项有关的问题而言是高效和有益的。例如,匹配系统可以能够将数百个需求有效地匹配或者映射到包含数百个(或者甚至数千个)要素的过程模型。附加地或者备选地,匹配系统可以能够考虑范畴专属词项(比如借项备忘录)以参考过程模型中的词项(比如发票)可以参考的某些事物。附加地或者备选地,匹配系统可以识别隐含映射,比如其中用户谈论“录入折扣代码”并且暗示“创建购买订单”的能力而未实际地提到它。附加地或者备选地,匹配系统可以被识别并且准确地匹配可以在各种上下文中在过程模型中多次出现的词项或者关键词。例如,宾语“发票”可以在过程模型中的许多能力中出现,并且匹配系统可以比如借助或者通过分析使能力唯一的动词、宾语和介词短语来匹配关键词。
以下在表I中示出用系统将一些需求映射到能力的一些示例。这些示例举例说明将文本需求映射到能力的复杂性和系统的可以处置这样的复杂性的自动化映射能力。
表I
在表I中的第一示例中,需求R1被映射到能力C1。自动化系统可以应对表达相同事物的多个变化。包括启发法的系统(比如以下讨论的映射系统200)可以能够利用依赖树以应对这样的问题。
在表I中的第二示例中,需求R2被映射到能力C2。为了将这一需求映射到能力,除了在前例中描述的依赖树之外,系统(比如映射系统200)可以理解或者包括“借项备忘录”是“发票”的同义词这样的范畴知识(例如,来自以下更具体讨论的语义映射)。
在表I中的第三示例中,需求R3被映射到能力C3。这里,系统(比如匹配系统200)可以利用动词“选择”是“创建宾语”动作中的许多可能动作之一并且“运输模式”是属于宾语“交货文档”的属性这样的范畴知识(例如,来自语义映射)。利用这一范畴指示可以证明在将需求映射到能力时对系统200有益。
在表I中的第四示例中,需求R4被映射到能力C4。在这一示例中,欠佳地形成需求。系统可以使用信息取回(IR)技术以为这一需求创建映射。
如这里描述的那样,系统可以用自动化方式标识在需求语句与过程模型的文本能力(可能被表述为能力语句)之间的文本语句关系,由此将企业的文本需求高效地映射到过程模型。
图2图示用于标识文本关系的匹配系统200,这些文本关系可以用来标识在需求语句与过程模型之间的文本关系。匹配系统200可以使用自然语言处理(“NLP”)、IR技术和语义推理的组合以将文本需求自动匹配和映射到过程模型。
匹配系统200可以接收能力语句205。能力语句可以是或者包括关于在处理模型中包括的能力的文本能力语句。例如,能力语句可以是图1中所示的“创建发票”能力120。备选地,能力语句可以是在处理模型中包括的任何能力。
匹配系统200可以接收需求语句210。需求语句可以例如是由匹配系统200从企业接收的文本语句。需求语句210可以描述企业可以在软件实现方式中具有或者希望的能力。在一些系统中,企业可以向匹配系统200传输或者以其他方式发送数百个或者数千个需求语句201。接收的能力语句205和需求语句210可以是或者形成文本语句对。需求语句和能力语句可以各自是单个句子或者句子片段。需求语句可以包括情态动词。
尽管将匹配系统200示出为接收能力语句205和需求语句210以用于匹配,但是在其他系统或者配置中,匹配系统200可以接收并且被用来匹配或者以其他方式比较可以不是能力语句或者需求语句的两个文本语句。
可以向匹配系统200的预处理模块220发送、传递或者以其他方式传输能力语句205和需求语句210。预处理模块220可以处理一个或者多个语句(比如能力语句205或者需求语句210),从而使得依赖解析器230可以解析语句。例如,在一个实施例中,预处理模块220可以从语句去除特殊字符,比如引号、连字号、句号、冒号或者其他字符。预处理模块220可以执行预处理的各种其他示例。
可以向依赖解析器230发送、传递或者以其他方式传输能力语句205和需求语句210。在一些系统中,向依赖解析器230发送预处理模块220的输出。依赖解析器230可以从能力语句205和需求语句210中的每个语句提取一个或者多个部分或者联系。将依赖树用于从需求提取内容可以减少对句子的语法的敏感性。因而,即使每个语句具有不同结构,使用依赖解析器仍然可以有助于标识在语句之间的文本关系。
依赖解析器230可以使用基于规则的方式以从能力语句205和需求语句210中的一个或者两个语句的文本提取部分。依赖解析器230可以在依赖树之上使用启发法集以提取相关部分、单词或者词项。依赖解析器230可以生成或者以其他方式获取和利用依赖树。依赖树可以包括一个或者多个依赖、联系或者关系(“联系”)。依赖解析器230考虑、报告或者分析的依赖的一些示例,如以下表II中所示并且可以包括:
1)dobj可以被创建、使用和指代语句之一(比如能力语句205或者需求语句210)的动词的直接宾语。dobj依赖联系可以标识用于主动句子的动词的直接宾语。例如,对于语句“系统应当允许用户创建发票”,可以生成dobj(创建,发票)联系,该联系标识语句中的动词“创建”的直接宾语“发票”。各种其他示例是可能的。
2)nsubjpass可以被创建、使用和指代被动从句的宾语。nsubjpass依赖联系可以标识与用于被动句子的动词有关的宾语。例如,对于语句“信用票据和回单必须在它们可以被处理之前被批准”,可以生成nsubjpass(批准,票据)联系,该联系标识语句中的动词“批准”的宾语“票据”。各种其他示例是可能的。
3)prep可以被创建、使用和指代名词或者动词的介词修饰语。prep联系可以标识链接到动词短语的介词短语。例如,对于语句“系统应当允许用户向ERP系统发送购买订单”,可以生成prepto(发送,ERP)联系,该联系标识语句中的动词“发送”为“涉及”介词短语“ERP”。各种其他示例是可能的。
4)nn可以被创建、使用和指代名词短语的最右名词的名词复合修饰语。nn联系可以用来标识被提取的宾语的全名。例如,对于语句“信用票据和回单必须在它们可以被处理之前被批准”,可以生成nn(票据,信用)联系,该联系标识语句中的最右名词“票据”的复合修饰语。各种其他示例是可能的。
5)conj可以被创建、使用和指代在句子的不同成分之间的连结关系(和/或)。conj联系可以用来从使用连结和分离的复杂句子创建VOP三元组。例如,对于语句“系统应当允许用户创建和维护订单”,可以生成conjand(创建,维护)联系,该联系标识在动词“创建”与“维护”之间的“和”关系。各种其他示例是可能的。
然后可以从依赖解析器230向词项提取器240发送联系,比如描述的依赖、关系或者联系中的任一项。词项提取器240可以使用简单规则集以从语句提取解析的单词组,比如动词-宾语-介词(VOP)三元组。例如,词项提取器240可以使用如下dobj和nsubjpass联系来标识动词和宾语关系,每个联系可以标识动词和宾语。词项提取器240然后可以比如通过分析生成的任何prep或者conj联系来检查语句以寻找一个或者多个介词修饰语或者连结联系。词项提取器240可以附加地或者备选地提取相关关系和宾语。词项提取器240可以使用nn联系来递归地提取用于任何宾语的完整宾语名称。可以创建、生成或者使用附加规则或者联系以处置一些系统中的更多变化。
以下所示的表II提供语句、依赖的列表和为语句标识的解析的单词组的一些示例。第二列示出使用依赖解析器230生成的联系和依赖的列表。可以粗体醒目显示可以用于提取VOP三元组的关键依赖。第三列示出词项提取器240已经使用联系或者依赖的列表来为语句提取的解析的单词组,比如VOP三元组。许多其他变化是可能的。
表II
匹配系统200可以单独处理能力语句205和需求语句210中的每个语句以使用预处理模块220、依赖解析器230或者词项提取器240中的一项或者多项来生成解析的单词组。在一些系统中,解析的单词组可以比如在如下系统中都是VOP三元组,在这些系统中,动词、宾语和介词是通常在能力中发现的仅有或者主要部分。因此,在一些情况下,能力语句可以不包含名词短语。因此,从文本语句对提取VOP三元组可以鉴于能力语句的结构是有利的。在其他系统中,解析的单词组可以包括语句的不同单词、词项或者部分。在其中VOP三元组被提取的系统中,可以未提取动词、宾语和介词中的一项或者多项,比如其中语句未包括动词、宾语和介词中的一项或者多项。例如,在语句“系统应当允许用户创建发票”中不存在介词,并且因此VOP三元组可以仅包括作为动词的“创建”和作为宾语的“发票”。其他变化是可能的。
一旦已经比如通过或者使用预处理模块220、依赖解析器230或者词项提取器240中的一项或者多项创建了解析的单词组,则可以向解析的词项匹配器250传递这些解析的单词组。解析的词项匹配器250可以比如从词项提取器240接收用于能力语句205的解析的单词组和用于需求语句210的解析的单词组中的一项或者多项。
解析的词项匹配器250可以比较或者以其他方式匹配用于能力语句205和需求语句210的解析的单词组。用于能力语句205的解析的单词组和用于需求语句210的解析的单词组的组合可以被称为解析的单词组对。解析的单词组对可以例如是解析的单词组的组合或者一对解析的单词组,其中一个解析的单词组用于第一文本语句(比如能力语句205),并且其中第二解析的单词组是第二文本语句,比如需求语句210。在一些系统中,来自第一文本语句和第二文本语句中的每个文本语句的解析的单词组可以包括相似或者相同词项类型。例如,解析的单词组对可以包括来自第一文本语句的VOP三元组和来自第二文本语句的VOP三元组。使用解析的词项匹配器250来匹配可以被称为解析的单词匹配、解析的单词组匹配或者NLP匹配。
解析的词项匹配器250可以例如包括串匹配器270、语义匹配器280和词典匹配器290中的一项或者多项。可以在解析的词项匹配器250中包括更少或者更多匹配器。解析的词项匹配器250可以单独或者一起利用串匹配器270、语义匹配器280和词典匹配器290中的一项或者多项以为用于能力语句205和需求语句210的解析的单词组生成一个或者多个相似度分数。相似度分数可以是可以指示在第一文本语句(比如能力语句205)与第二文本语句(比如需求语句210)之间的相似度水平的等级、程度、分数或者其他值。
在一些系统中,可以将由解析的词项匹配器250执行的解析的单词组的匹配分离成用于解析的单词组的每个部分或者词项的匹配。在这些系统中,可以比如从解析的单词组或者解析的单词组对标识或者生成词项对。词项对可以例如是一对词项,其中一个词项来自第一文本语句并且第二词项来自第二文本语句。词项对中的词项中的每个词项可以是具有一个或者多个共同特性(比如词项类型(即,词项的词性(part of speech)))的词项。例如,词项对可以包括来自第一文本语句的动词和来自第二文本语句的动词。词项可以是一个单词或者多于一个单词。例如,短语“顾客发票”可以是词项。其他变化是可能的。
作为示例,解析的词项匹配器250可以匹配来自用于能力语句205的VOP三元组的动词至来自用于需求语句的VOP三元组的动词。可以进行相似分析以用于匹配用于能力语句205和需求语句210的VOP三元组的宾语或者介词。比较或者匹配的词项可以被表示为TR和TC,其中TR可以是用于需求语句210的词项(比如动词、宾语或者介词),并且TC可以是用于能力语句205的相同类型的词项(比如动词、宾语或者介词)。
在一些系统中,在比较或者匹配分析期间使用的词项TR和TC可以分别是用于来自需求语句210和能力语句205的词项的基本单词或者词干版本。例如,在用于需求语句210的动词是“生成(generating)”时,用于比较或者匹配的词项TR可以是“生成(generat)”。作为另一示例,在用于能力语句205的动词是“生成(generates)”时,用于比较或者匹配的词项TC也可以是“生成(generat)”。获得词项的基本单词或者词干版本的各种方法和示例是可能的。在其他系统中,确切词项及其前缀或者后缀可以用于词项TR和TC。各种其他示例是可能的。
解析的词项匹配器250可以使用或者包括串匹配器270,该串匹配器270可以匹配或者以其他方式标识在解析的单词组的一个或者多个词项之间的关系。串匹配器270可以生成串相似度分数(SIMstr(TR,TC)),该串相似度分数可以指示在相同类型的两个词项TR与TC之间的串相似度分数。串相似度分数SIMstr(TR,TC)可以基于两个词项TR和TC的确切串比较。
串相似度分数SIMstr(TR,TC)可以在一些实例中指示仅两个可能的结果之一——两个词项TR和TC确切地匹配或者它们未确切地匹配。例如,串相似度分数SIMstr(TR,TC)可以在词项TR和TC是确切匹配时返回值“1”,并且可以在词项TR和TC未确切地匹配时返回值“0”。作为具体示例,串匹配器270可以生成串相似度分数SIMstr(TR,TC)=1,其中词项TR是“生成(generat)”并且其中词项TC也是“生成(generat)”。在一些系统中,串相似度分数不可以小于零并且不可以大于1。各种其他示例是可能的。
解析的单词匹配器250可以使用或者包括语义匹配器280,该语义匹配器280可以匹配或者以其他方式标识在解析的单词组的一个或者多个词项TR与TC之间的关系。语义匹配器280可以生成语义相似度分数(SIMsem(TR,TC)),该语义相似度分数可以指示在任何两个词项TR与TC之间的语义相似度分数。语义相似度分数可以测量、指示或者以其他方式代表第一语义语句和第二语义语句中的词项的相似度水平或者程度,并且可以考虑单词、同义词和在词项之间的其他语义关系的变化。语义相似度分数SIMsem(TR,TC)可以基于在单词之间的语义关系。
语义匹配器280可以在计算语义相似度分数之前、期间或者之后访问、使用、查询、接收信息、传输信息或者以其他方式与语义图形282通信。语义图形282可以包含用于一个或者多个单词或者能力的信息、数据、模型、流程图、依赖或者分级树或者图表或者各种其他信息。语义图形282中的信息可以由语义匹配器280用来比如通过分析词项TR和TC中的每个词项以标识在词项TR与TC之间的关系来确定语义相似度分数SIMsem(TR,TC)。
借助或者未借助语义图形282,语义匹配器280可以确定、计算或者以其他方式生成语义相似度分数SIMsem(TR,TC)。可以用于确定语义相似度分数SIMsem(TR,TC)的公式的示例是:
If:如果;otherwise:否则
在用于计算语义相似度分数的上述公式中,sameAs(TR,TC)可以是如果语义图形282中的两个要素等效或者以其他方式具有相同含义则返回真的函数。作为示例,sameAs(TR,TC)可以是或者返回值“1”,其中词项TR是“生成(generat)”并且其中词项TC也是“生成(generat)”。作为另一示例,sameAs(TR,TC)可以是或者返回值“1”,其中词项TR是“账单”并且并且其中词项TC是“发票”,并且其中语义图形282指示“账单”和“发票”在处理模型内是同义词或者具有相同含义。然而,sameAs(TR,TC)可以是或者返回值“0”(或者假的指示),其中词项TR是“创建”并且并且其中词项TC是“删除”,其中语义图形282未指示“创建”和“删除”具有相同含义。许多其他示例是可能的。
在用于计算语义相似度分数的上述公式中,subClassOf(TR,TC)可以是如果TR在语义图形282中是TC的子类则返回真的函数。语义图形282可以包括用于一个或者多个词项的基于依赖、分级或者类的信息或者数据。作为示例,subClassOf(TR,TC)可以是或者返回值α1,其中词项TR是“销售订单”,并且其中词项TC是“订单”,并且其中语义图形282指示“销售订单”是“订单”的子类。作为另一示例,在TR是“订单”时并且在词项TC是“销售订单”时,subClassOf(TR,TC)可以是或者返回值0,因为“订单”不可以是“销售订单”的子类。各种其他示例是可能的。
在上述公式中,subClassOf(TC,TR)可以是如果TC在语义图形282中是TR的子类则返回真的函数。该确定除了可以用相反顺序考虑词项之外可以与用于subClassOf(TR,TC)的确定相同或者相似。作为示例,在TR是“订单”时并且在词项TC是“销售订单”时,subClassOf(TC,TR)可以是或者返回值值α2,其中语义图形282指示“销售订单”是“订单”的子类。在这一示例中,subClassOf(TR,TC)将是或者返回值“0”或者“假”。匹配系统200可以使用各种规则、表或者算法在单词是另一短语或者单词的子类(subClassOf)时进行确定。各种其他示例是可能的。
在用于计算语义相似度分数的上述公式中,partOf(TR,TC)可以是如果TR在语义图形282中是TC的部分则返回真的函数。作为示例,在词项TR是“运输模式”时并且在词项TC是“交货文档”时,并且在语义图形282指示“运输模式”是“交货文档”的部分时,partOf(TR,TC)可以是或者返回值β1。各种其他示例是可能的。
在上述公式中,partOf(TC,TR)可以是如果TC在语义图形282中是TR的部分则返回帧的函数。该确定除了可以用相反顺序考虑词项之外可以与用于partOf(TR,TC)的确定相同或者相似。作为示例,在TR是“交货文档”时并且在词项TC是“运输模式”时,partOf(TC,TR)可以是或者返回值β2,其中语义图形282指示“运输模式”是“交货文档”的部分。匹配系统200可以使用各种规则、表或者算法在单词是另一短语或者单词的部分(partOf)时进行确定。partOf确定可以用来描绘归属(patronomic)关系。例如,手指可以是手的一部分,或者加州可以是美国的一部分。各种其他示例是可能的。
如果sameAs(TR,TC)、subClassOf(TR,TC)、partOf(TR,TC)、subClassOf(TC,TR)和partOf(TC,TR)无一返回真或者非零值,则用于计算语义相似度分数的上述公式也可以返回值“0”。在一些系统中,语义相似度分数不可以小于零并且不可以大于1。
语义相似度分数可以包括或者利用不同或者附加考虑、关系、分级或者信息以计算语义相似度分数。在一些系统中,可以考虑更少关系。
可以运用各种研究和方法以为α1、β1、α2和β2确定或者设置值。例如,数据的一个或者多个测试或者分析可以用来确定各种语义相似度分数以用于比较一个或者多个能力语句205或者需求语句210与为每个比较而选择的用于α1、β1、α2和β2的各种值。分析这些测试的结果可以指示用于α1、β1、α2和β2的一个或者多个值可以提供最佳、最准确或者最精确结果。为α1、β1、α2和β2推导或者设置值的各种其他方法是可能的。
可以为α1、β1、α2和β2确定或者设置各种值。作为凭经验确定的一个示例,可以如下设置用于常数的值:α1=0.95、β1=0.85、α2=0.85和β2=0.75。可以设计这一组值以惩罚比能力更普遍的需求并且奖励比能力更具体的需求。这样的一组值可以有助于开发如下软件,该软件的功能更接近地类似它的用户的希望。各种其他示例是可能的。
由语义匹配器280使用或者参考的语义图形282可以用多种方式可定制或者被生成。由于用户可以经常参考宾语(比如发票和购买订单)的不同公共属性,所以语义图形282可以使用一种或者多种不同技术来建模或者以其他方式并入在过程模型的范畴中的常用词项之间的关系。
例如,语义图形282可以提取常用单词。具体而言,语义图形可以提取过程模型(或者过程模型的范畴)中的前5至50个、前10至30个、前15至25个或者前20个最频繁出现的名词和动词。可以从或者使用标记的单词创建用于动词和名词的单词直方图。例如,以下在表III中示出示例订单到现金过程模型中的最常用动词和名词的频率。可以向语义图形282添加最频繁出现的名词或者动词中的一个或者多个名词或者动词作为节点。
表III
动词 | 频率 | 名词 | 频率 |
维护 | 638 | 数据 | 155 |
创建 | 618 | 订单 | 127 |
定义 | 328 | 计划 | 122 |
处理 | 250 | 合同 | 118 |
管理 | 200 | 销售 | 107 |
履行 | 144 | 发票 | 95 |
执行 | 90 | 顾客 | 89 |
查看 | 60 | 付款 | 67 |
分配 | 58 | 项目 | 66 |
设置 | 56 | 发货 | 54 |
作为在创建语义图形282时使用的技术的另一示例,可以提取频繁使用的短语。可以用多种方式并且使用不同技术来实现提取一个或者多个短语。例如,可以在索引中进行搜索以寻找包含最频繁名词的两克(gram)和三克。然后可以使用具有更低(即低于提取的名词和动词的数目)截止的高通滤波器来过滤这些最频繁单词。例如,如果x(例如,20)个名词和动词被提取,则可以使用高通滤波器来过滤1/4x(例如,5)个最频繁单词。作为另一示例,可以创建和使用n克索引以过滤最频繁n克。在一些系统中,可以向语义图形282中填充使用上述技术中的一种或者两种技术(例如,为借项备忘录和顾客发票)提取的短语。
作为在创建语义图形282时使用的技术的另一示例,可以向语义图形282添加在节点之间的关系。如以上所言,语义图形282可以具有、定义、标识或者以其他方式包括至少以下三个类型的关系:1)子类(subClass)、2)部分(partOf)、3相同(sameAs)。可以半自动地创建subClass关系,比如其中可以使用启发法来向用户呈现用于子类的候选集。例如,单词W(该单词可以是短语P的后缀(例如,订单-销售订单))可以指示P是W的子类。对于每个概念,可以向用户示出来自词典292的同义词,这些用户然后可以使用sameAs关系来选择待添加的相关同义词。可以主要人工或者部分自动地执行添加partOf关系。使用这些和其他技术,可以创建或者填充语义图形282以用于与语义匹配器280一起使用。
图3示出可以与语义图形282相似、相同或者以其他方式类似的示例语义图形300。语义图形300示出在一个或者多个能力或者词项之间的联系,比如相同(sameAs)、部分(partOf)和子类(subClass)联系。可以创建或者使用其他语义图形282,比如专属于一个或者多个过程模型或者行业的或者为一个或者多个过程模型或者行业而特别设计或者创建的语义图形282。各种其他语义图形282是可能的。
附加地或者备选地,解析的单词匹配器250可以使用或者包括词典匹配器290,该词典匹配器290可以匹配或者以其他方式标识在解析的单词组的一个或者多个词项之间的关系。词典匹配器290可以生成词典相似度分数(SIMLex(TR,TC)),该词典相似度分数可以指示在相同类型的两个词项TR与TC之间的词典相似度。词典相似度分数SIMLex(TR,TC)可以用来基于两个词项TR和TC在单词分类法中的相对位置来标识在它们之间的相似度。
词典匹配器290可以在计算词典相似度分数之前、期间或者之后访问、使用、查询、接收信息、传输信息或者以其他方式与词典292通信。词典292可以是或者包括信息、数据、单词分类法、词库和字典中的一项或者多项。词典292可以包括反义词、同义词、同形同音异义词或者其他词项或者单词的一个或者多个表或者列表。在一些系统中,工具(比如WordNet)可以用作词典292。词典292中的信息可以由词典匹配器290用来比如通过分析词项TR和TC中的每个词项以标识在TR和TC之间或者用TR和TC的分类法来确定词典相似度分数SIMLex(TR,TC)。
借助或者未借助词典292,词典匹配器292可以确定、计算或者以其他方式生成语义相似度分数SIMLex(TR,TC)。可以用于确定词典相似度分数SIMLex(TR,TC)的公式的示例是:
在用于计算词典相似度分数的上述公式中,可以使用以下公式来计算词项t的被表示为IC(t)的信息内容:
在这一公式中,freq(t)和freq(root)可以分别是词项t和分类法的根r的频率。两个词项TR和TC的最低公共包含(lowest commonsubsumer,lcs)可以是分类法中的包含两个词项的最低节点。在一些系统中,词典相似度分数不可以小于零并且不可以大于1。可以与词典匹配器290或者解析的词项匹配器250一起实施或者使用词典相似度分数的各种其他示例。
串匹配器270、语义匹配器280和词典匹配器290中的一个或者多个匹配器可以各自用来为来自用于能力语句205和需求语句210的解析的单词组的每个词项对(TR,TC)计算词项对相似度分数。例如,在一些系统中,串匹配器270、语义匹配器280和词典匹配器290可以各自用来为用于能力语句205和需求语句210的动词对(VR,VC)、宾语对(OR,OC)和介词对(PR,PC)计算词项对相似度分数。
对于来自用于能力语句205的解析的单词组和用于需求语句210的解析的单词组的、比较的或者以其他方式匹配的每个词项对(TR,TC),解析的词项匹配器250可以生成词项对相似度分数SIM(TR,TC)。词项对相似度分数SIM(TR,TC)可以利用或者考虑串相似度分数SIMstr(TR,TC)、语义相似度分数SIMsem(TR,TC)和词典相似度分数SIMLex(TR,TC)中的一个或者多个相似度分数。例如,解析的词项匹配器250可以比较来自串匹配器270、语义匹配器280和词典匹配器290的分数,并且可以如以下公式中所示地确定或者指明词项对相似度分数SIM(TR,TC)是这些分数中的最大值:
可以个别计算用于每个词项对的词项对相似度分数。例如,如使用上述公式计算的SIM(VR,VC)可以等效于SIMstr(VR,VC),而SIM(Os,OC)可以等效于SIMsem(OR,OC)。各种其他示例或者组合是可能的。
在一些系统中,解析的词项匹配器250可以利用用于匹配介词对(PR,PC)的附加的或者备选的比较或者匹配公式或者算法。例如,解析的词项匹配器250可以比如使用以下公式从用于动词对或者宾语对的相似度分数单独地确定或者以其他方式计算介词相似度分数SIMP(PR,PC):
If:如果;null:空;otherwise:否则
上述公式可以添加额外或者备选层、确定或者计算以为介词对(PR,PC)确定相似度分数,这可以在能力语句205或者需求语句210之一具有介词词项PR或者PC而另一个没有时有用。例如,在这一公式中,介词相似度分数SIMP(PR,PC)可以是或者返回值“1”或者“真”,其中需求语句210包括词项PR并且能力语句205未包括介词词项。备选地,在能力语句205包括词项PC并且需求语句210未包括介词词项时,介词相似度分数SIMP(PR,PC)可以是或者返回值“γ”。用于γ的值可以凭经验来设置并且可以是各种值。例如,在一些系统中,γ=0.8。在这些境况中的任一境况之下,具有介词词项的语句可以被视为比无介词词项的语句更具体。例如,包括“为电子商务创建合同”的需求语句210可以被视为比能力语句“创建合同”更具体。在能力语句205和需求语句210二者具有介词词项时(或者在均无介词词项时),公式可以变回成由解析的词项匹配器250比如使用串相似度分数、语义相似度分数和词典相似度分数中的一个或者多个相似度分数中的最大值来计算的SIM(PR,PC)分数。
虽然未要求,但是上述公式可以对于确定介词相似度分数SIMP(PR,PC)有用的一个原因可以是基于动词和宾语的匹配可以比介词匹配更重要。这样,可以设计相似度测量以比对于介词更多地惩罚在动词或者宾语之间的差异。在其他系统中,用于介词对的相似度分数可以未包括这一附加公式。
可以被称为词项对相似度分数或者词项对子分数的用于每个词项对的确定的相似度分数可以由解析的词项匹配器250用来为用于能力语句205的解析的单词组和用于需求语句210的解析的单词组确定解析的单词相似度分数。解析的单词相似度分数可以指示、代表、量化或者以其他方式标识来自第一文本语句的解析的单词和来自第二解析的语句的解析的单词的相似度或者匹配程度或者水平。例如,解析的词项匹配器250可以将解析的单词相似度分数(也被称为解析的单词分数)计算为每个词项对子分数的乘积。例如,可以如以下所示将在需求(R)与能力(C)之间的总的解析的单词相似度分数(VOP(R,C))计算为用于动词对的相似度分数(SIM(VR,VC))、用于宾语对的相似度分数(SIM(OR,OC))和用于介词对的相似度分数SIMP(PR,PC)的乘积:
Max:最大
在这一公式中,<VR,OR,PR>可以是从需求语句210提取的VOP三元组,并且<VC,OC,PC>可以是从能力语句205提取的VOP三元组。
在一些系统中,可以将解析的单词相似度分数计算为用于能力语句205和需求语句210的解析的单词组中的所有词项对的乘积。在其他系统中,可以在计算解析的单词相似度分数时忽略来自解析的单词组的一个或者多个词项对。在一些系统中,解析的单词相似度分数不可以小于0并且不可以大于1。其他变化是可能的。
匹配系统200的一个或者多个部分(比如预处理模块220、依赖解析器230和词项提取器240)可以附加地或者备选地用来为能力语句205和需求语句210中的每个语句创建单词矢量。例如词,项提取器240可以用来为语句创建单词矢量。单词矢量可以例如是文本语句中的所有单词或者词项的矢量或者流。可以比如基于单词矢量中的单词或者词项的各种特性或者频率对单词或者词项加权。单词矢量可以将能力语句205或者需求语句210建模为单词包或者汇集。文本语句中的单词或者词项的顺序可以在单词矢量中不重要或者未被标识。单词矢量可以未依赖于如下语句的结构,单词矢量是从该语句生成的。比较单词矢量可以是有益的并且赋予附加有用工具,尤其是在能力语句205或者需求语句210被欠佳地形成或者复杂时,或者在可能难以生成解析的单词组(比如VOP三元组)时。
在创建单词矢量(比如用于能力语句205的单词矢量或者用于需求语句210的单词矢量)时,匹配系统200的一个或者多个部分可以首先从语句的解析的单词组提取词项或者记号(token),其中匹配系统200能够成功解析语句。匹配系统200的一个或者多个部分也可以搜索文本以寻找可以在语义图形中定义的宾语。匹配系统200的一个或者多个部分也可以记号化(tokenize)文本的其余部分并且为语句创建词项矢量。作为示例,可以为句子“这是一个狐狸”创建单词矢量{”这”,“是”,“一个”,“狐狸”}。其他变化和示例是可能的。
可以用各种方式创建和加权文本语句,比如需求语句单词矢量或者能力语句单词矢量例如,单词矢量或者其中fi是词项矢量或者中的词项ti的加权的频率。可以用各种方式(如例如用以下公式)确定或者计算每个词项ti的加权的频率fi:
If:如果;SemanticGraph:语义图形;otherwise:否则
在上述公式中,可以是语句中的单词Wi的频率。单词矢量的加权的性质如上述公式中所示向语句中的动词、宾语和介词给予附加权值,因为这些经常是语句中的表现语句的能力的词项。附加地,单词矢量的加权的性质根据上述公式也可以向可以在语义图形(比如语义图形282)中出现的单词给予附加权值。在一些系统中,然后可以对除了停用单词之外的所有其他单词等效地加权。各种其他权值是可能的。
单词矢量匹配器260可以比较或者匹配能力语句205和需求语句210的单词矢量。例如,单词矢量匹配器260可以用各种方式(比如通过取需求语句单词矢量和能力语句单词矢量的点积)来比较或者匹配两个单词矢量和两个单词矢量的点积的结果可以被视为单词矢量相似度分数(也被称为单词矢量分数)。无论单词或者词项在语句中的放置或者顺序如何,单词矢量相似度分数可以例如代表在第一文本语句和第二文本语句中的单词或者词项之间的相似度水平或者程度。在一些系统中,单词矢量相似度分数不可以小于零并且不可以大于1。使用单词矢量匹配器260的单词匹配可以在一些系统中被称为矢量匹配、单词矢量匹配、IR匹配、余弦相似度匹配或者各种其他匹配或者比较。
匹配系统200可以用多种方式确定在能力语句205与需求语句210之间的总匹配分数290(M(R,C))。例如,匹配系统200可以使用解析的单词相似度分数和单词矢量相似度分数中的一个或者多个相似度分数来计算总匹配分数M(R,C)290。作为示例,匹配系统200可以如以下所示将总匹配分数290计算为来自解析的单词相似度分数和单词矢量相似度分数的最大分数:
M(R,C)=max{cos(R,C),VOP(R,C)}
以这一方式,无论是否已经良好地或者欠佳地构造了能力语句205和需求语句210中的一个或者两个语句或者无论是否可以容易地解析这些语句,可以可靠地计算在两个语句205与210之间的相似度。在这一示例中,总匹配分数越大,需求语句210和能力语句205就可以越可能匹配或者以其他方式有关。解析的单词相似度分数和单词矢量相似度分数二者可以个别提供在两个语句之间的相似度的值或者可量化标识。在一些系统中,分析和考虑解析的单词相似度分数和单词矢量相似度分数二者与确定语句的相似度一起提供可以证明联合使用比如果个别使用任一分数更成功的相异和鲁棒过程。例如,解析的单词相似度分数可以在欠佳地构造句子时特别有用、提供相关结果并且主要考虑(factor into)总匹配分数。在其他示例中,单词矢量相似度分数可以在不容易解析句子时特别有用、提供相关结果并且主要考虑(factor into)总匹配分数。在一起使用时,每个分数可以在标识的分数可以证明在标识文本语句关系时最相关或者有用时对总匹配分数贡献更多。
如以下所示的表IV描绘在示例能力语句205(第一列)与示例需求语句210(第二列)之间的映射集。在第三列中示出用于能力语句205和需求语句210的总匹配分数290,而在第四列中示出映射的细节,比如用于一个或者多个词项对的相似度分数。
表IV
除了生成匹配范围之外,匹配系统200可以附加地或者备选地向每个映射分配链路类型。匹配系统200可以使用链路类型(比如等效(=);被包含(subsumedBy)有关(relatedTo)(∩)和不匹配(noMatch)(≠)。注意,在使用解析的单词组匹配生成映射时,匹配系统200可以生成更细粒度的关系(比如等效和被包含),但是如果使用单词矢量匹配来生成映射,则在一些系统中,可以仅生成有关。
匹配系统200可以提供许多益处并且可以支持许多关键分析目标,比如:
1)醒目显示在需求中未指定的来自过程模型的公共能力。
2)确定过程模型的哪些部分对应于需求以标识相关模块。
3)标识企业的需求中的哪些需求未映射到过程模型的要素并且标识它们作为非标准(潜在地有风险并且成本高的)需求。
4)使与该要素关联的任何资产或者知识可用于支持其他分析和设计活动。例如,映射可以用来基于先前项目生成估计或者利用用模型要素编索引的可重用、课程学习的资产。
图4-图6描绘用于标识在文本语句之间的关系的各种方法。图4-图6的方法可以例如部分或者完全由匹配系统200、在匹配系统200中的部件或者模块或者各种其他系统实施或者执行。
图4图示用于标识在第一文本语句与第二文本语句之间的关系的方法。该方法始于块402,其中标识第一文本语句和第二文本语句。在一些系统中,第一文本语句可以是需求语句,比如从企业接收的需求语句210。在一些系统中,第二文本语句可以是能力语句或者其他过程模型描述,比如来自过程模型的能力语句205。可以颠倒第一文本语句和第二文本语句的指明,从而使得第一文本语句可以是能力语句或者反之亦然。然而,图4的方法也可以用来比较可以不是需求语句或者能力语句的各种其他文本语句。例如,图4的方法可以用来比较各种语句的翻译,或者在各种其他能力中被使用。
一旦已经标识了第一文本语句和第二文本语句,则该方法可以前进到块404,其中解析第一文本语句和第二文本语句以获得解析的单词组和词项对。例如,可以比如通过或者使用如描述的预处理模块220、依赖解析器230和词项提取器240中的一项或者多项来解析第一文本语句以获得第一文本语句解析的单词组。可以对第二文本语句执行相同或者相似过程以获得第二文本语句解析的单词组。在一些系统中,解析的单词组可以是或者包含VOP三元组。在其他系统中,可以在解析的单词组中包括各种其他词项。
也在块404中,可以为第一文本语句解析的单词组和第二文本语句解析的单词组生成或者以其他方式标识词项对。词项对可以具有来自第一文本语句的词项和来自第二文本语句的词项。词项对可以例如是或者包括来自第一文本语句解析的单词组和第二文本语句解析的单词组的相似词项类型。例如,在单词组是VOP三元组时,词项对可以是如描述的动词对、宾语对和介词对。其他示例是可能的。
在块406中,为每个词项对个别计算词项对相似度分数。词项对相似度分数的计算可以例如由解析的词项匹配器250、串匹配器270、语义匹配器280和词典匹配器290中的一项或者多项执行。
在一些方法中,可以如以上描述的那样通过首先计算串相似度分数、语义相似度分数和词典相似度分数来计算词项对相似度分数。可以例如使用串匹配器270、语义匹配器280和词典匹配器290来个别计算这些分数。然后可以通过取串相似度分数、语义相似度分数和词典相似度分数中的最大值来确定词项对相似度分数。
图5图示用于计算词项对相似度分数的备选方法。图5中的方法始于块502,其中标识词项对。
在块504,可以为词项对计算串相似度分数。可以例如使用如先前描述的串匹配器270或者以各种其他方式计算串相似度分数。
在已经为词项对计算了串相似度分数之后,该方法可以前进到块506。在块506中,可以确定串相似度分数是否指示来自第一文本语句的词项和来自第二文本语句的词项的确切匹配。例如,在串相似度分数的分析示出串匹配器270返回值“真”或者“1”时,这可以指示来自第一文本语句的词项和来自第二文本语句的词项的匹配。在一些系统中,串匹配器270可以在词项的基本或者词干版本相等时返回“真”或者“1”值。确定串相似度分数是否指示确切匹配的各种其他方法是可能的。
如果该确定是串相似度分数确实指示确切匹配,则该方法可以前进到块508,其中词项对相似度分数等于串相似度分数。在一些系统中,语义相似度分数和词典相似度分数中的一个或者多个相似度分数不能大于值“1”。这样,由于串相似度分数等于1并且由于词项对相似度分数可以是串相似度分数、语义相似度分数和词典相似度分数中的最大值,所以可以不必计算语义相似度分数或者词典相似度分数。
另一方面,如果该确定指示串相似度分数未指示确切匹配,则该方法可以前进到块510。在块510,比如如描述的那样利用语义匹配器280并且使用语义图形282来计算用于词项对的语义相似度分数。在块512,比如如描述的那样利用词典匹配器290并且使用词典292来计算用于词项对的词典相似度分数。可以用任一顺序或者在相同时间执行块510和512。
在块514中,可以比较语义相似度分数与词典相似度分数。在语义相似度分数可以大于词典相似度分数时,该方法可以前进到块516,其中将词项对相似度分数设置为等于语义相似度分数。备选地,在语义相似度分数不大于词典相似度分数时,该方法可以前进到块518,其中将词项对相似度分数设置为等于词典相似度分数。
可以配置或者设置块516和518以使得将词项对相似度分数设置为等于语义相似度分数和词典相似度分数中的更大值。在一些方法中,可以在块514的确定中无需串相似度分数,比如其中串相似度分数被配置用于返回两个值中的仅一个值:“0”(或者假)和“1”(或者真)。在这些方法中,由于串相似度分数不等于“1”并且该方法前进到块510和512,所以串相似度分数必须等于“0”。这样,由于语义相似度分数和词典相似度分数可以具有在0与1之间的值,所以串相似度分数、语义相似度分数和词典相似度分数中的最大值可以等于语义相似度分数和词典相似度分数中的最大值。
在一些方法中,在词项对之一是介词对时,可以使用先前描述的附加公式来计算介词对相似度分数,该公式可以考虑其中文本语句之一包括介词词项而另一文本语句未包括介词词项的境况。在其他方法中,可以未并入这一附加公式。计算词项对相似度分数的其他变化或者方法可以是可能的。
返回图4中的方法,在块408中,可以基于词项对相似度分数计算解析的单词相似度分数。各种方法、公式或者算法可以用来计算解析的单词相似度分数。例如,可以通过取用于每个词项对的词项对相似度分数的乘积来计算解析的单词相似度分数。计算解析的单词相似度分数的其他方法是可能的。
在块410中,可以生成或者以其他方式创建用于第一文本语句和第二文本语句的单词矢量。可以如先前描述的那样执行第一文本语句单词矢量或者第二文本语句单词矢量的生成。单词矢量可以被加权。例如,在一些方法中,可以向某些词项类型(比如动词、宾语和介词)给予比其他词项更大的权值。生成或者以其他方式创建单词矢量的各种其他方式可以是可能的。
在块412中,可以寄计算单词矢量相似度分数。单词矢量相似度分数可以指示或者以其他方式代表在第一文本语句单词矢量与第二文本语句单词矢量之间的相似度。可以用各种方式计算单词矢量相似度分数。例如,在一些方法中,可以通过取第一文本语句单词矢量和第二文本语句单词矢量的点积来计算单词矢量相似度分数。各种其他示例或者计算是可能的。
在块414中,可以计算总匹配分数,比如匹配分数290。图6图示计算匹配分数的一种方法。在块602中,可以比如用先前讨论的方式中的任何方式计算用于词项对的解析的单词相似度分数。在块604中,可以比如用先前讨论的方式中的任何方式计算单词矢量相似度分数。可以用任何顺序或者在相同时间执行块602和604。
在块606,可以执行解析的单词相似度分数和单词矢量相似度分数的比较。在该比较或者确定指示解析的单词相似度分数大于单词矢量相似度分数时,该方法可以前进到块608,其中总匹配分数可以被视为解析的单词相似度分数。在该比较或者确定指示解析的单词相似度分数不大于单词矢量相似度分数时,该方法可以前进到块610,其中总匹配分数可以被视为单词矢量相似度分数。可以配置或者以其他方式设计块606、608和610以使得匹配分数等于解析的单词相似度分数和单词矢量相似度分数中的最大值。计算总匹配分数的各种其他方式可以是可能的。
可以用各种顺序执行块404、406、408、410和412。在一些系统中,尽管可以需要用图4中所示顺序执行块404、406和408,并且尽管可以需要用所示顺序执行块410和412,但是可以在任何时间或者用任何顺序执行这两组块中的任一组的执行。例如,可以初始地或者用各种顺序执行块404和410,而可以随后执行块406、408和412中的计算。在其他系统中,可以在块404、406和408之前执行块410和412。各种其他示例是可能的。
为第一文本语句和第二文本语句生成匹配分数可以是有益的。例如,在为第一文本语句和若干第二文本语句中的每个第二文本语句生成匹配分数时,然后可以比较匹配分数以确定若干第二文本语句中的哪个第二文本语句与第一文本语句最接近地匹配。作为示例,可以比如通过为第二文本语句“B”、“C”和“D”中的每个第二文本语句执行图4的方法一次来比较第一文本语句“A”与第二文本语句“B”、“C”和“D”以生成三个匹配分数MSB、MSC和MSD。通过比较匹配分数,系统可以确定语句“B”、“C”和““D”中的哪个语句与“A”最接近地匹配。在例如MSD>MSC>MSB时,系统可以确定文本语句“D”可以是与第一文本语句“A”的最接近匹配、继而为文本语句“C”而文本语句“B”最不匹配。
图7描绘标识文本关系并且基于该标识来显示结果的一种方法。虽然图7的方法被描述为与需求语句210和能力语句205一起使用、但是可以可以与具有第一类型的一个或者多个语句和第二类型的一个或者多个语句的任何系统一起使用。
图7的方法可以例如在企业已经赋予需求语句210的集合时有用。系统(比如匹配系统200)可以希望比较需求语句210与过程模型中的一个或者多个(比如每一个)能力语句205。可以希望这样的比较以例如标识与需求语句210中的每个需求语句最接近地匹配的能力语句205。
该方法可以始于块702,其中可以标识第一需求语句210。这可以是第一需求语句210,匹配系统200希望分析或者比较该第一需求语句210与过程模型中的能力语句。
在块704,可以标识第一能力语句205。在块706,可以比较需求语句210与能力语句205。在块708,可以计算或者确定用于需求语句210和能力语句205的匹配分数。可以用各种方式、比如先前描述的方式执行需求语句210和能力语句205的比较以及匹配分数的计算。
在块710,可以关于是否已经比较第一需求语句210与每个能力语句205进行确定。在能力语句205包含尚未与需求语句210比较的能力语句时,该方法可以返回到块704,其中可以标识和比较新的先前未比较的能力语句205与需求语句210以计算匹配分数。这一过程可以继续,直至已经比较所有能力语句205与需求语句210并且已经为每个比较计算了匹配分数。
在已经比较了所有能力语句205与需求语句210之后,该方法可以前进到块712,其中可以关于是否已经考虑了所有需求语句210进行确定。在尚未与任何能力语句205比较的一个或者多个需求语句210保留时,该方法可以返回到块702,其中可以标识或者以其他方式选择新的未比较的需求语句210。从块702,该方法可以再次前进经过块704、706、708和710,直至已经比较了新的未比较的需求语句210与每一个能力语句205。
在已经比较了新的未比较的需求语句210与每一个能力语句205并且已经为每个比较计算了匹配分数之后,该方法可以再次返回到块712。这一过程可以继续,直至已经比较了所有需求语句710与所有能力语句而已经生成了用于每个比较的匹配分数。在这时,该方法可以前进到块714。
在块714,可以基于计算的匹配分数为每个需求语句210显示匹配能力语句205。例如,在比较需求语句210与能力语句“B”、“C”和“D”从而生成三个匹配分数MSB、MSC和MSD时,系统可以确定能力语句“D”可以是与需求语句210的最接近匹配、继而为文本语句“C”,而文本语句“B”最不匹配。可以为需求语句210显示匹配的能力语句中的一个或者多个能力语句。在一些系统中,将首先显示能力语句“D”、继而为能力语句“C”并且最后为能力语句“B”。
在一些系统中,可以为每个需求语句210显示所有能力语句205。在其他系统中,可以为每个需求语句210仅显示生成非零匹配分数的能力语句205。在一些系统中,可以为每个需求语句210仅显示前某一数目的匹配能力语句,比如具有最高匹配分数的十个能力语句205。
在其他系统中,可以设置阈值,从而使得可以为需求语句210仅显示具有在阈值以上的匹配分数的那些能力语句205。例如,可以自动映射并且向用户示出或者显示具有匹配分数0.625或者更高的任何匹配能力语句。在这一示例中,图形(比如图8中示出的图形)可以辅助确定阈值。图8中的图形图示使用匹配系统200以标识文本关系从而基于各种阈值示出精确度、召回率和F1度量的实验结果。图8中的图形示出在阈值为0.625时,可以实现用于精确度、召回率和F1度量的高值。各种其他示例是可能的。
图9是示出与用于标识文本关系并且将过程模型能力和客户需求映射到项目范围规范中的系统关联的图形用户界面900的屏幕截图。图形用户界面900可以包括一个或者多个面板。例如,图形用户界面900可以包括项目模型显示910,该项目模型显示示出项目模型的能力的分级布置。项目模型分级可以描绘一个或者多个子备注和一个或者多个可重用需求,比如来自过程模型的需求、标准需求或者常用评论。与这一图形用户界面900关联的系统可以读取用户指定的过程模型文件并且在项目模型显示910中显示它的内容。
图形用户界面900可以附加地或者备选地包括客户需求显示920,该客户需求显示可以列举或者以其他方式包括由企业或者客户指定的一个或者多个需求。图形用户界面900可以附加地备选地包括项目范围规范显示930,该项目范围规范显示可以示出将过程模型能力映射到客户端需求的结果。项目范围规范显示930可以例如示出可以被自动映射到一个或者多个文本需求的过程模型要素。项目范围规范可以例如具有一个或者多个节点、可重用需求和公共需求。
如图9中所示,可以在项目模型显示中列举项目模型的一个或者多个能力,比如能力941。附加地,可以在客户需求显示920中示出一个或者多个文本需求,比如需求951和952。在图9中所示的示例中,这些需求951和952中的每个需求可以被自动映射到能力941并且在项目范围规范显示930中被显示为映射的需求961和962。项目范围规范可以在父子关系存在时将映射翻译成这样的关系。各种其他示例是可能的。
尽管以上描述的方法和系统可以参考关于一个要素是否大于或者等于第二要素的比较或者其他确定,但是在一些实施例中,这些比较中的一个或者多个比较可以被关于一个要素是否大于第二要素的比较或者其他确定被替换。类似地,被描述为“大于”的比较或者其他确定也可以被替换为“大于或者等于”。尽管以上描述的方法可以参考关于一个要素是否小于或者等于第二要素的比较或者其他确定,但是在一些实施例中,这些比较中的一个或者多个比较可以被替换为关于一个要素是否小于第二要素的比较或者其他确定。类似地,被描述为“小于”的比较或者其他确定也可以被替换为“小于或者等于”。要求要素“超过”第二要素而进行的比较或者其他确定可以被替换为要求要素“超过或者等于”第二要素的比较或者其他确定,并且反之亦然。
匹配系统200、预处理模块220、依赖解析器230、词项提取器240、解析的词项匹配器250、单词矢量匹配器260、串匹配器270、语义匹配器280、词典匹配器290、语义图形282和词典292中的一项或者多项可以是或者可以包括一个或者多个各种种类的计算设备(比如图10中的计算设备)的一部分或者全部。图10图示通用计算机系统指定1000的示例。来自匹配系统200、预处理模块220、依赖解析器230、词项提取器240、解析的词项匹配器250、单词矢量匹配器260、串匹配器270、语义匹配器280、词典匹配器290、语义图形282或者词典292的部件中的任何部件可以包括计算机系统1000的一部分或者全部。计算机系统1000可以包括如下指令集,可以执行该指令集以使计算机系统1000执行公开的方法或者基于计算机的功能中的任何一个或者多个方法或者基于计算机的功能。计算机系统1000可以作为独立设备来操作或者可以例如使用网络被连接到其他计算机系统或者外围设备。
在联网部署中,计算机系统1000可以在服务器的能力中操作或者在服务器-客户端用户网络环境中作为客户端用户计算机来操作,或者在对等(或者分布式)网络环境中作为对等计算机系统来操作。计算机系统1000也可以被实施为各种设备或者并入到各种设备中,比如个人计算机(PC)、平板PC、机顶盒(STB)、个人数字助理(PDA)、移动设备、掌上型计算机、膝上型计算机、台式计算机、通信设备、无线电话、陆线电话、控制系统、相机、扫描仪、传真机、打印机、寻呼机、个人可信设备、web装置、网络路由器、交换机或者桥接器或者能够执行如下指令集(依次或者以其他方式方式)的任何其他机器,该指令集指定将由该机器采取的动作。另外,尽管图示了单个计算机系统1000,但是也可以将术语“系统”解释为包括个别或者联合执行一个指令集或者多个指令集以执行一个或者多个计算机功能的系统或者子系统的任何汇集。
如图10中所示,计算机系统1000可以包括处理器1002(例如,中央处理单元(CPU))、图形处理单元(GPU)或者二者。处理器1002可是多种系统中的部件。例如,处理器1002可以是标准个人计算机或者工作站的一部分。处理器1002可以是一个或者多个通用处理器、数字信号处理器、专用集成电路、现场可编码门阵列、服务器、网络、数字电路、模拟电路、其组合或者用于分析和处理数据的其他现在已知或者以后开发的设备。处理器1002可以实施软件程序,比如人工生成(即编程)的代码。
可以将术语“模块”定义为包括多个可执行模块。如这里描述的那样,模块被定义为包括可由处理器(比如处理器1002)执行的软件、硬件或者其某一组合。软件模块可以包括可由处理器1002或者其他处理器执行的在存储器(比如存储器1004)或者另一存储器设备中存储的指令。硬件模块可以包括处理器1002可执行、指引或者以其他方式被控制用于由处理器1002执行的各种设备、部件、电路、门、电路板等。
计算机系统1000可以包括存储器1004,比如可以经由总线1008通信的存储器1004。存储器1004可以是主存储器、静态存储器或者动态存储器。存储器1004可以包括但不限于计算机可读存储介质(比如各种类型的易失性和非易失性存储介质)、包括但不限于随机存取存储器、只读存储器、可编程只读存储器、电可编程只读存储器、电可擦除只读存储器、闪存、磁带或者磁盘、光学介质等。在一个示例中,存储器1004包括用于处理器1002的高速缓存或者随机存取存储器。在备选示例中,存储器1004从处理器1002分离,比如处理器的高速缓存存储器、系统存储器或者其他存储器。存储器1004可以是用于存储数据的外部存储设备或者数据库。示例包括硬驱动、紧致盘(“CD”)、数字视频盘(“DVD”)、记忆卡、记忆棒、软盘、通用串行总线(“USB”)存储器设备或者操作用于存储数据的任何其他设备。存储器1004可操作用于存储可由处理器1002执行的指令。图中图示的或者描述的功能、动作或者任务可以由执行存储器1004中存储的指令的、编程的处理器1002执行。功能、动作或者任务独立于指令集、存储介质、处理器或者处理策略的具体类型并且可以由独自或者组合操作的软件、硬件、集成电路、固件、微代码等执行。同样地,处理策略可以包括多处理、多任务、并行处理等。
如所示,计算机系统1000可以或者可以未进一步包括显示单元1010,比如液晶显示器(LCD)、有机发光二极管(OLED)、平板显示器、固态显示器、阴极射线管(CRT)、投影仪、打印机或者用于输出确定的信息的其他现在已知或者以后开发的显示设备。显示器1010可以充当用于用户查看处理器1002的运转的接口或者具体充当与存储器1004中或者驱动单元1016中存储的软件的接口。
附加地,计算机系统1000可以包括被配置用于允许用户与系统1000的部件中的任何部件交互的输入设备1012。输入设备1012可以是数字键区、键盘或者光标控制设备(比如鼠标或者操纵杆)、触屏显示器、遥控或者操作用于与计算机系统1000交互的任何其他设备。
计算机系统1000也可以包括盘或者光学驱动单元1016。盘驱动单元1016可以包括其中可以嵌入一个或者多个指令集1024(例如,软件)的计算机可读介质1022。另外,指令1024可以体现如描述的方法或者逻辑中的一个或者多个方法或者逻辑。在具体示例中,指令1024可以在由计算机系统1000执行期间完全或者至少部分地驻留于存储器1004内或者处理器1002内。存储器1004和处理器1002也可以包括如以上描述的计算机可读介质。
本公开内容设想如下计算机可读介质,该计算机可读介质包括指令1024或者响应于传播的信号接收和执行指令1024,从而使得连接到网络1026的设备可以通过网络1026传达语音、视频、音频、图像或者任何其他数据。另外,可以通过网络1026经由通信端口或者接口1020或者使用总线1008来传输或者接收指令1024。通信端口或者接口1020可以是处理器1002的一部分或者可以是单独部件。通信端口1020可以在软件中被创建或者可以是在硬件中的物理连接。通信端口1020可以被配置用于与网络1026、外部介质、显示器1010或者在系统1000中的任何其他部件或者其组合连接。与网络1026的连接可以是物理连接(比如有线以太网连接)或者可以如后文讨论的那样被无线地建立。同样地,与系统1000的其他部件的附加连接可以是物理连接或者可以被无线地建立。网络1026可以备选地被直接连接到总线1008。
网络1026可以包括有线网络、无线网络、以太网AVB网络或者其组合。无线网络可以是蜂窝电话网络、802.11、802.16、802.20、802.1Q或者WiMax网络。另外,网络1026可以是公用网络(比如因特网)、专用网络(比如内联网)或者其组合,并且可以利用现在可用或者以后开发的多种联网协议,包括但不限于基于TCP/IP的联网协议。
尽管计算机可读介质被示出为单个介质,但是术语“计算机可读介质”可以包括单个介质或者多个介质,比如集中式或者分布式数据库以及存储一个或者多个指令集的关联高速缓存和服务器。术语“计算机可读介质”也可以包括能够存储、编码或者携带用于由处理器执行的指令集或者使计算机系统执行公开的方法或者操作中的任何方法或者操作的任何介质。“计算机可读介质”可以为非瞬态并且可以有形。
在示例中,计算机可读介质可以包括固态存储器、比如记忆卡或者容纳一个或者多个非易失性只读存储器的其他封装。另外,计算机可读介质可以是随机存取存储器或者其他易失性可重写存储器。附加地,计算机可读介质可以包括用于捕获载波信号(比如通过传输介质传达的信号)的磁光或者光学介质,比如盘或者带或者其他存储设备。电子邮件的数字文件附件或者其他自包含信息存档或者存档集可以被视为分发介质,该分发介质是有形存储介质。因而,公开内容被视为包括其中可以存储数据或者指令的计算机可读介质或者分发介质和其他等效物和后继介质中的任何一个或者多个介质。
在备选示例中,可以构造专用硬件实现方式(比如专用集成电路、可编程逻辑阵列和其他硬件设备)以实施系统的各种部分。可以包括装置和系统的应用可以广义地包括多种电子和计算机系统。描述的一个或者多个示例可以使用两个或者更多具体互连硬件模块或者设备与可以在模块之间和通过模块传达的有关控制和数据信号或者作为专用集成电路的部分来实施功能。因而,本系统涵盖软件、固件和硬件实现方式。
描述的系统可以由计算机系统可执行的软件程序实施。另外,在非限制示例中,实现方式可以包括分布式处理、部件/宾语分布式处理和并行处理。备选地,可以构造虚拟计算机系统处理以实施系统的各种部分。
系统不限于与任何特定标准和协议操作。例如,可以使用用于因特网和其他分组切换网络传输的标准(例如,TCP/IP、UDP/IP、HTML、HTTP)。这样的标准可以定期地被具有实质上相同功能的更快或者更高效等效物取代。因而,具有与公开的标准和协议相同或者相似的功能的替换标准和协议被视为其等效物。
从想要将它们的需求映射到行业专属过程模型的项目团队对需求文档执行标识文本关系的系统和方法的评估。项目来自化学制品公司,并且需求覆盖与它们的跨国供应链过程不同的方面,比如接受顾客订单、履行订单、为订单开发票和为订单发货。一些需求关于订单到现金需求,而其他需求在它们中包括方面,比如应对危险物品和制造。将客户需求映射到由不同群体创建的标准化的“用于化工行业的ERP过程模型”。使用的过程模型包括3116个能力。客户提供具有189个需求的文档。原样使用由客户提供的需求,因此良好地形成一些需求而未良好地形成其他需求。
执行两种实验。对于第一实验,比较匹配系统200与多个其他方式。对于第二实验,进行具有6个潜在用户的案例研究。6个潜在用户的一半将需求人工地映射到过程模型,而另一半使用匹配系统200作为起点来映射它。
使用由三个范畴专家开发的黄金标准来评估两个实验结果。三个范畴专家的团队以民主方式协作地创建黄金标准。对于需求,每个成员建议它具有的到过程模型的所有不同映射。为了在黄金标准中接受映射,需要三个成员中的至少两个成员的同意。黄金标准包含在需求与过程模型能力之间的334个映射。在189个需求之中,未将42个需求映射到任何能力,因为它们在过程模型中不具有任何对应能力。附加地,可以将许多需求映射到多于一个过程模型能力。
在评估实验的结果时使用三个标准IR参数:精确度、召回率和f-测量。为了计算这些参数,将由匹配系统200或者人员生成的映射分类为以下各项之一:
1)真肯定(T P):映射(由匹配系统200或者人工生成)如果它已经存在于黄金标准中则被视为真肯定。
2)假肯定(F P):映射(由匹配系统200或者人工生成)如果它未存在于黄金标准中则被视为假肯定。
3)假否定(F N):存在于黄金标准中、但是未被生成的映射被视为假否定。
下表V示出针对用于不同匹配策略的第一实验的精确度、召回率和F1分数结果。表V的结果举例说明尝试的第五方式(加权余弦+VOP+语义图形),该方式由匹配系统200用于匹配需求与能力,产生比任何其他策略更好的F1分数。
表V
方式 | 精确度 | 召回率 | F1 | |
1 | TF-IDF | 0.16 | 0.03 | 0.05 |
2 | 句子相似度 | 0.11 | 0.33 | 0.17 |
3 | 加权余弦+语义图形 | 0.87 | 0.27 | 0.41 |
4 | 加权余弦+YOP | 0.74 | 0.37 | 0.49 |
5 | 加权余弦+YOP+语义图形 | 0.73 | 0.62 | 0.67 |
基于以TF-IDF(词项频率逆文档频率)为基础的余弦相似度的实现方式的第一方式产生精确度(0.16)和召回率(0.03)二者的很低分数。对于这些低分数存在两个可能原因:1)第一方式未使用范畴专属信息,以及2)使用IDF减少频繁使用的词项的权值,但是对于这一匹配问题,频繁使用的词项是重要的,因为大多数能力代表相似宾语(比如发票)的不同种类的操作。
第二方式一般基于如以上描述的词典相似度分数,并且产生更高召回率(0.33),因为它使用语言工具,比如词典292。然而,第二方式仍然受欠佳精确度(0.11)困扰。这是因为通用词典数据库(比如词典292)可能不足以在范畴专属实体(宾语)(比如在需求和过程模型中使用的实体(宾语))之间消除歧义。
使用加权余弦与语义图形的第三方式产生高精确度(0.87)和比基于句子相似度的方式略微更低的召回率(0.27)。这示出范畴专属语义模型的价值。
在第四方式(加权余弦+VOP)中,引入VOP显著提高召回率(0.37)而保持更高精确度(0.74)。这可以证实VOP以优于前三种方式的途径向句子的结构给予重要性,并且因此帮助发现更正确的映射。
最后,如在匹配系统200中实施和使用的第五方式(加权余弦+VOP+语义图形)组合将语义图形与基于规则的解析和余弦相似度一起使用的益处并且维持高精确度(0.73)而召回率最高(0.62)。基于图8中所示的用于精确度和召回率的曲线在实验上确定用于方式的阈值为0.625。
第二实验是用于标识、确定或者验证是否存在如下统计证据的案例研究,该统计证据证实用户借助匹配系统200比用人工方式发现更准确(更高精确度)的更多映射(更高召回率)。对于这一研究,使用具有关于化工行业的可变数量的经验和知识的六个参与者。随机选择他们中的三位以执行将需求文档映射到过程模型这样的任务。他们被给予Microsoft Excel表格的两个标签页中的需求文档和过程模型并且自由使用由Excel提供的基于关键词的搜索。要求其他三位借助匹配系统200执行相同任务、即他们的起点是由匹配系统200生成的映射集,该映射集是通过与图9-图16中所示的界面和显示相似的由匹配系统200提供的界面和显式来提供的。
在第二实验中引入空值和备选假设以针对使用映射系统200的该组和人工创建映射的该组研究精确度和召回率均值的方向性。
空值假设Hr0:
备选假设Hra:
空值假设Hp0:
备选假设Hpa:
以下所示的表VI举例说明来自第二实验的用于六个参与者的精确度、召回率和F1分数。
表VI
使用映射系统200的该组的平均召回率是0.71,并且人工创建映射的该组的平均召回率是0.06。表VI示出用户能够借助映射系统200发现显著更多的映射。对于这些积极结果可以存在至少两个原因:1)用户可能无法承受需求文档和能力模型的大小;以及2)用户可能不能超出简单关键词搜索从而仅获得最明显结果。
表VI也示出使用映射系统200的该组的平均精确度是0.81,而人工创建映射的该组的平均精确度是0.34。这可以用如下事实来说明,该事实为用户可以寻求最明显匹配并且可以未应用任何阈值或者按照匹配分数对任何可能结果排序。使用映射系统200的该组有更佳召回率的另一原因可以是映射系统200可以已经呈现了他们能够容易发现的、在过程模型的相同局部区域中的多个其他映射。
针对用于召回率的值为两组执行在显著度水平0.01的逐对T测试。发现t值(0.000114)小于显著度水平(0.01),并且因此按照结果拒绝空值假设Hr0从而允许Hra为真这样的结论。也针对用于精确度的值为两组执行在显著度水平0.01的逐对T测试。发现t值(1.19x10-6)小于显著度水平(0.01),并且因此按照结果拒绝空值假设HP0从而允许HPa为真这样的结论。用相等(真)方差正态分布两个群体。因此,更大标准偏差与更小标准偏差之比小于2。这样,可以推断结果在统计上显著。案例研究允许拒绝空值假设-Hr0和Hp0以及接受空值假设-Hra和Hpa。这样,结果支持使用映射系统200的组在精确度和召回率二者方面显著超过人工组这样的结论。
尽管第二实验仅包括六个参与者,但是需求文档和过程模型的大小明显大,并且两组也具有很低的标准偏差。附加地,仅向用户给予两小时来执行映射,但是认为时间代表项目团队成员可以正常地能够向这一任务投入的时间量。
这里描述的匹配系统200和方法可以不同于先前参考文献并且提供一个或者多个益处、比如:
1)匹配系统200使用NLP和IR技术的组合以提供来自两个类型的方式的益处并且处置被良好地编写并且可以比如使用NLP解析器来容易地解析的需求或者被欠佳地编写或者复杂并且不能比如使用IR技术来解析的需求。
2)匹配系统200包括用于利用依赖树的、基于开发的规则的方式。这允许处置独自基于句法和/浅解析的方式可能不能处置的某一语言复杂性。
3)匹配系统200可以使用和利用代表范畴知识的、半自动生成的语义图形282以辅助匹配。
这里描述的匹配系统200和方法可以使用依赖解析以及除了词典292之外还利用语义图形282以执行匹配。附加地,匹配系统200和方法可以运用单词矢量匹配(比如余弦相似度)以用于匹配难以在句法上解析的句子。向使用单词矢量匹配添加解析的单词匹配(比如用可以由解析的词项匹配器250执行的VOP匹配)可以允许匹配系统200比仅使用单词矢量匹配性能更佳。
匹配系统200和方法可以帮助用户将自然语言需求映射到过程模型。匹配系统200和方法可以使用NLP技术和IR技术的组合,从而创建和构建工具(比如依赖解析器230、语义图形282和词典292)以从需求提取结构化的内容并且将它映射到过程模型要素。本方式的两个可能方面可以包括:1)在依赖解析之上使用基于IR和规则的技术的组合,这允许匹配系统200自动匹配良好地形成或者欠佳地形成的需求和能力;以及2)利用可以比通用词典或者其他词典292更适合于范畴专属过程模型的、半自动生成的语义图形282。
匹配系统200可以使用语义匹配器280和词典匹配器290以标识串匹配器270可能未标识的在范畴(比如其中“账单与发票相同”)中的公共关系,从而向匹配系统200提供用于匹配可以在语义上不同(比如不同拼写)、但是可以意味着相同事物的词项的功能。附加地或者备选地,匹配系统200可以使用语义匹配器280和/或语义引擎282以估计、标识或者猜测用户意图。例如,用户可以说出“系统应当允许用户录入运输模式”。在这一示例中,用户可以忽略提到必须在创建“交货文档”之时录入运输模式。在一些实例中,语义匹配器280和/或语义图形282可以包含关系,比如“运输模式是交货文档的一部分”。在这些实例中,语义匹配器280可以确定或者推断用户正在谈论创建交货文档。其他示例是可能的。
用于标识文本语句关系的方法的一个示例可以包括标识包括第一文本语句和第二文本语句的文本语句对。第一文本语句可以包括第一单词集,并且第二文本语句可以包括第二单词集。该方法可以包括通过使用至少一个处理器从文本语句对提取解析的单词组对。解析的单词组对可以包括然后比较的来自第一文本语句的第一解析的单词组和来自第二文本语句的第二解析的单词组。可以为文本语句对计算解析的单词分数,其中解析的单词分数基于第一解析的单词组和第二解析的单词组的比较。提取、比较和分数计算可以提供在两个文本语句之间的有关度的可量化值,该值可以是如下因子,该因子可以辅助或者提供快速、高效以及比在其他或者常规方法中可靠和准确的文本语句的标识。
在这一示例方法的更多实施例中,可以基于第一单词集创建第一单词矢量,并且可以基于第二单词集创建第二单词矢量。可以比较第一单词矢量与第二单词矢量,并且可以基于第一单词矢量和第二单词矢量的比较为文本语句对计算单词矢量分数。这一附加创建、比较和分数计算可以提供在两个文本语句之间的有关度的第二相关可量化值,该值可以不同于第一分数并且可以提供两个文本语句的有关度的备选指示符。
该方法也可以包括为文本语句对确定基于解析的单词分数和单词矢量分数中的至少一项的匹配分数。将两个这些分数一起使用可以提供对两个语句的有关度的更全面和完整关注,从而大量提高文本语句分析的准确度并且增加文本语句分析的效率。在一些实例中,这一方法也可以造成对于进行该方法的系统的更少存储器需求,比如其中获得更少假肯定结果并且这些结果需要进一步分析或者来自用户的输入。其他优点是可能的。以这一方式,无论是否已经良好地或者欠佳地构造了语句中的一个或者两个语句或者无论是否可以容易解析这些语句,可以可靠地计算在两个语句之间的相似度。
尽管已经描述了公开内容的各种实施例,但是本领域普通技术人员将清楚,多得多的实施例和实现方式在公开内容的范围内是可能的。因而,除了按照所附权利要求及其等效含义之外并不限制公开内容。
Claims (25)
1.一种用于标识文本语句关系的计算机实施的方法,所述方法包括:
标识包括第一文本语句和第二文本语句的文本语句对,所述第一文本语句包括第一单词集,并且所述第二文本语句包括第二单词集;
通过使用至少一个处理器,从所述文本语句对提取解析的单词组对,其中所述解析的单词组对包括来自所述第一文本语句的第一解析的单词组和来自所述第二文本语句的第二解析的单词组;
为所述文本语句对比较所述第一解析的单词组和所述第二解析的单词组;
通过使用所述至少一个处理器,为所述文本语句对计算解析的单词分数,其中所述解析的单词分数基于所述第一解析的单词组和所述第二解析的单词组的比较;
基于所述第一单词集创建第一单词矢量;
基于所述第二单词集创建第二单词矢量;
为所述文本语句对比较所述第一单词矢量和所述第二单词矢量;
通过使用所述至少一个处理器,为所述文本语句对计算单词矢量分数,其中所述单词矢量分数基于所述第一单词矢量和所述第二单词矢量的比较;以及
为所述文本语句对确定匹配分数,其中所述匹配分数基于所述解析的单词分数和所述单词矢量分数中的至少一项。
2.根据权利要求1所述的方法,其中用于所述文本语句对的所述单词矢量分数是所述第一单词矢量和所述第二单词矢量的加权余弦相似度。
3.根据权利要求1或者2所述的方法,其中所述第一单词矢量包括用于所述第一单词集的每个单词的数值,并且其中所述第二单词矢量包括用于所述第二单词集的每个单词的数值。
4.根据权利要求3所述的方法,其中在来自所述第一单词集或者所述第二单词集的单词是动词、宾语或者介词时增加用于所述单词的数值。
5.根据前述权利要求中的任一权利要求所述的方法,其中每个解析的单词组是包括来自每个相应文本语句的动词、宾语和介词的动词-宾语-介词(VOP)三元组;
其中所述解析的单词组对包括多个词项对,所述多个词项对包括:动词对,所述动词对包括来自用于所述第一单词组的所述VOP三元组的动词和来自用于所述第二单词组的所述VOP三元组的动词;宾语对,所述宾语对包括来自用于所述第一单词组的所述VOP三元组的宾语和来自用于所述第二单词组的所述VOP三元组的宾语;以及介词对,所述介词对包括来自用于所述第一单词组的所述VOP三元组的介词和来自用于所述第二单词组的所述VOP三元组的介词。
6.根据权利要求5所述的方法,其中为所述文本语句对计算所述解析的单词分数包括:
计算动词对子分数、宾语对子分数和介词对子分数,
其中计算每个对子分数包括计算串相似度分数,所述串相似度分数分别基于所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较;
其中所述解析的单词分数是所述动词对子分数、所述宾语对子分数和所述介词对子分数中的至少一项的乘积。
7.根据权利要求6所述的方法,其中计算每个对子分数还包括:
计算语义相似度分数,所述语义相似度分数基于在所述动词对、宾语对或者介词对的每个动词、宾语或者介词之间的语义关系;
计算词典相似度分数,所述词典相似度分数基于所述动词对、宾语对或者介词对的每个动词、宾语或者介词在分类法中的相对位置;以及
比较所述串相似度分数、所述语义相似度分数和所述词典相似度,其中所述对子分数基于所述串相似度分数、所述语义相似度分数和所述词典相似度分数中的至少一项。
8.根据权利要求6所述的方法,其中计算每个对子分数还包括:
在所述串相似度分数未分别指示所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时,计算语义相似度分数和词典相似度分数;
在所述串相似度分数未分别指示所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时,比较所述语义相似度分数和所述词典相似度分数;
其中在所述串相似度分数分别指示所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时,所述子分数是所述串相似度分数;以及
其中在所述串相似度分数未分别指示所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时,所述子分数是所述语义相似度分数和所述词典相似度分数中的最大值。
9.根据前述权利要求中的任一权利要求所述的方法,其中所述匹配分数是来自所述解析的单词分数和所述单词矢量分数的最大分数。
10.一种用于文本语句关系标识的系统,所述系统包括:
数据库,被配置用于存储第一文本语句集和第二文本语句集;
文本分析系统,包括非瞬态计算机可读存储介质,所述存储介质具有在其中存储的数据,所述数据代表可由编程的处理器执行的指令,所述存储介质包括:
用于标识包括第一文本语句和第二文本语句的文本语句对的指令,所述第一文本语句包括第一单词集,并且所述第二文本语句包括第二单词集;
用于通过使用至少一个处理器,从所述文本语句对提取解析的单词组对的指令,其中所述解析的单词组对包括来自所述第一文本语句的第一解析的单词组和来自所述第二文本语句的第二解析的单词组;
用于为所述文本语句对比较所述第一解析的单词组和所述第二解析的单词组的指令;
用于通过使用所述至少一个处理器,为所述文本语句对计算解析的单词分数的指令,其中所述解析的单词分数基于所述第一解析的单词组和所述第二解析的单词组的比较;
用于基于所述第一单词集创建第一单词矢量的指令;
用于基于所述第二单词集创建第二单词矢量的指令;
用于为所述文本语句对比较所述第一单词矢量和所述第二单词矢量的指令;
用于通过使用所述至少一个处理器,为所述文本语句对计算单词矢量分数的指令,其中所述单词矢量分数基于所述第一单词矢量和所述第二单词矢量的比较;以及
用于为所述文本语句对确定匹配分数的指令,其中所述匹配分数基于所述解析的单词分数和所述单词矢量分数中的至少一项。
11.根据权利要求10所述的系统,其中用于所述文本语句对的所述单词矢量分数是所述第一单词矢量和所述第二单词矢量的加权余弦相似度。
12.根据权利要求10或者11所述的系统,其中所述第一单词矢量包括用于所述第一单词集的每个单词的数值,并且其中所述第二单词矢量包括用于所述第二单词集的每个单词的数值,并且其中在来自所述第一单词集或者所述第二单词集的单词是动词、宾语或者介词时增加用于所述单词的数值。
13.根据权利要求10至12中的任一权利要求所述的系统,其中每个解析的单词组是包括来自每个相应文本语句的动词、宾语和介词的动词-宾语-介词(VOP)三元组;
其中所述解析的单词组对包括多个词项对,所述多个词项对包括:动词对,所述动词对包括来自用于所述第一单词组的所述VOP三元组的动词和来自用于所述第二单词组的所述VOP三元组的动词;宾语对,所述宾语对包括来自用于所述第一单词组的所述VOP三元组的宾语和来自用于所述第二单词组的所述VOP三元组的宾语;以及介词对,所述介词对包括来自用于所述第一单词组的所述VOP三元组的介词和来自用于所述第二单词组的所述VOP三元组的介词。
14.根据权利要求13所述的系统,其中用于为所述文本语句对计算所述解析的单词分数的指令包括:
用于计算动词对子分数、宾语对子分数和介词对子分数的指令,计算每个对子分数包括:
用于计算串相似度分数的指令,所述串相似度分数分别基于所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较;
用于计算语义相似度分数的指令,所述语义相似度分数基于在所述动词对、宾语对或者介词对的每个动词、宾语或者介词之间的语义关系;
用于计算词典相似度分数的指令,所述词典相似度分数基于所述动词对、宾语对或者介词对的每个动词、宾语或者介词在分类法中的相对位置;以及
用于比较所述串相似度分数、所述语义相似度分数和所述词典相似度的指令,其中所述对子分数基于所述串相似度分数、所述语义相似度分数和所述词典相似度分数中的至少一项;
其中所述解析的单词分数是所述动词对子分数、所述宾语对子分数和所述介词对子分数中的至少一项的乘积。
15.一种包括计算机可读指令的计算机程序产品,所述计算机可读指令当在计算机系统上被加载和执行时使所述计算机系统根据权利要求1至9中的任一权利要求所述的方法执行操作。
16.根据权利要求1所述的方法,其中从第一文本语句集选择所述第一文本语句,并且其中从第二文本语句集选择所述第二文本语句。
17.根据权利要求16所述的方法,其中所述第一文本语句集是需求语句集,并且所述第二文本语句集是过程模型能力集。
18.根据权利要求17所述的方法,其中为多个文本语句对确定匹配分数,每个文本语句对包括来自所述需求语句集的一个需求语句和来自所述过程模型能力集的一个能力语句。
19.根据权利要求18所述的方法,还包括为每个需求语句可视地显示在包括所述需求语句的文本语句对中也包括的能力语句的列表。
20.根据权利要求19所述的方法,其中基于用于包括所述需求语句和所述相应能力语句的所述文本语句对的所述匹配分数对所述能力语句的每个列表排序。
21.一种被配置用于为文本语句对计算匹配分数的处理器,所述处理器包括:
词项提取器,被配置用于从文本语句对提取解析的单词组对,所述解析的单词组对包括多个词项对;
解析的词项匹配器,包括:
串匹配器,被配置用于为每个词项对计算串相似度分数;
语义匹配器,被配置用于为每个词项对计算语义相似度分数;
词典匹配器,被配置用于为每个词项对计算词典相似度分数;以及
其中所述解析的词项匹配器被配置用于基于所述串相似度分数、所述语义相似度分数和所述词典相似度分数中的至少一项为所述文本语句对计算解析的单词分数。
22.根据权利要求21所述的处理器,还包括:
单词矢量匹配器;
其中所述词项提取器被配置用于为所述文本语句对的每个文本语句生成单词矢量;以及
其中所述单词矢量匹配器被配置用于比较生成的所述单词矢量并且基于所述比较计算单词矢量分数。
23.根据权利要求22所述的处理器,其中所述处理器被配置用于计算总匹配分数,所述总匹配分数基于所述解析的单词分数和所述单词矢量分数中的至少一项。
24.根据权利要求21所述的处理器,其中所述多个词项对包括:动词对,所述动词对包括来自用于所述第一单词组的所述VOP三元组的动词和来自用于所述第二单词组的所述VOP三元组的动词;宾语对,所述宾语对包括来自用于所述第一单词组的所述VOP三元组的宾语和来自用于所述第二单词组的所述VOP三元组的宾语;以及介词对,所述介词对包括来自用于所述第一单词组的所述VOP三元组的介词和来自用于所述第二单词组的所述VOP三元组的介词。
25.根据权利要求24所述的处理器,其中所述解析的词项匹配器计算动词对子分数、宾语对子分数和介词对子分数,所述计算包括:
用所述串匹配器为每个词项对计算所述串相似度分数,所述串相似度分数分别基于所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较;
在所述串相似度分数未分别指示所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时,为每个词项对用所述语义匹配器计算所述语义相似度分数和用所述词典匹配器计算所述词典相似度分数;
在所述串相似度分数未分别指示所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时,比较所述语义相似度分数和所述词典相似度分数;
在所述串相似度分数分别指示所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时,标识所述串相似度分数作为所述子分数;以及
在所述串相似度分数未分别指示所述动词对、宾语对或者介词对的每个动词、宾语或者介词的基本单词的串比较时,标识所述语义相似度分数和所述词典相似度分数中的最大值作为所述子分数;以及
其中计算所述解析的单词分数包括取所述动词对子分数、所述宾语对子分数和所述介词对子分数中的至少一项的乘积。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN291/CHE/2011 | 2011-02-01 | ||
IN291CH2011 | 2011-02-01 | ||
US13/325,596 | 2011-12-14 | ||
US13/325,596 US9400778B2 (en) | 2011-02-01 | 2011-12-14 | System for identifying textual relationships |
PCT/US2012/022176 WO2012106133A2 (en) | 2011-02-01 | 2012-01-23 | System for identifying textual relationships |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103443787A true CN103443787A (zh) | 2013-12-11 |
CN103443787B CN103443787B (zh) | 2016-10-12 |
Family
ID=46578092
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280014286.8A Active CN103443787B (zh) | 2011-02-01 | 2012-01-23 | 用于标识文本关系的系统 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9400778B2 (zh) |
EP (1) | EP2671170A2 (zh) |
CN (1) | CN103443787B (zh) |
AU (1) | AU2012212638B2 (zh) |
WO (1) | WO2012106133A2 (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105589813A (zh) * | 2015-07-02 | 2016-05-18 | 中国银联股份有限公司 | 一种电子文档版本变化跟踪方法 |
CN107402912A (zh) * | 2016-05-19 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 解析语义的方法和装置 |
CN107666987A (zh) * | 2015-07-02 | 2018-02-06 | 埃森哲环球服务有限公司 | 机器人过程自动化 |
CN109614624A (zh) * | 2018-12-12 | 2019-04-12 | 广东小天才科技有限公司 | 一种英文语句的识别方法及电子设备 |
CN110807311A (zh) * | 2018-07-18 | 2020-02-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN111553143A (zh) * | 2020-04-30 | 2020-08-18 | 河北省讯飞人工智能研究院 | 文本纠错方法、相关设备及可读存储介质 |
US10950021B2 (en) | 2018-04-23 | 2021-03-16 | Accenture Global Solutions Limited | AI-driven design platform |
US11455552B2 (en) | 2019-11-22 | 2022-09-27 | Accenture Global Solutions Limited | Intelligent design platform using industrialized experience in product designs |
US11586783B2 (en) | 2020-05-21 | 2023-02-21 | Accenture Global Solutions Limited | Intelligent design platform using digital assistants for design process support |
US11704802B2 (en) | 2019-11-07 | 2023-07-18 | Accenture Global Solutions Limited | Multi-dimensional model merge for style transfer |
US11941771B2 (en) | 2021-02-03 | 2024-03-26 | Accenture Global Solutions Limited | Multi-dimensional model texture transfer |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8521516B2 (en) * | 2008-03-26 | 2013-08-27 | Google Inc. | Linguistic key normalization |
US20150012294A1 (en) * | 2012-02-24 | 2015-01-08 | Peter Casady | Real-time recall inventory matching system |
US20130227382A1 (en) * | 2012-02-29 | 2013-08-29 | Naoufel Boulila | Method and system for extracting requirements from narratives |
US9406020B2 (en) * | 2012-04-02 | 2016-08-02 | Taiger Spain Sl | System and method for natural language querying |
US9195647B1 (en) * | 2012-08-11 | 2015-11-24 | Guangsheng Zhang | System, methods, and data structure for machine-learning of contextualized symbolic associations |
US9009197B2 (en) | 2012-11-05 | 2015-04-14 | Unified Compliance Framework (Network Frontiers) | Methods and systems for a compliance framework database schema |
US9754015B2 (en) * | 2012-11-26 | 2017-09-05 | Excalibur Ip, Llc | Feature rich view of an entity subgraph |
US20150046152A1 (en) * | 2013-08-08 | 2015-02-12 | Quryon, Inc. | Determining concept blocks based on context |
US9886950B2 (en) * | 2013-09-08 | 2018-02-06 | Intel Corporation | Automatic generation of domain models for virtual personal assistants |
IN2013CH04333A (zh) * | 2013-09-25 | 2015-08-28 | Accenture Global Services Ltd | |
US20170011480A1 (en) * | 2014-02-04 | 2017-01-12 | Ubic, Inc. | Data analysis system, data analysis method, and data analysis program |
US10503480B2 (en) * | 2014-04-30 | 2019-12-10 | Ent. Services Development Corporation Lp | Correlation based instruments discovery |
US12040095B2 (en) * | 2014-06-02 | 2024-07-16 | Mdx Medical, Llc | System and method for tabling medical service provider data provided in a variety of forms |
US10331782B2 (en) * | 2014-11-19 | 2019-06-25 | Lexisnexis, A Division Of Reed Elsevier Inc. | Systems and methods for automatic identification of potential material facts in documents |
JP5995226B2 (ja) * | 2014-11-27 | 2016-09-21 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム |
JP6291443B2 (ja) * | 2015-03-12 | 2018-03-14 | 日本電信電話株式会社 | 接続関係推定装置、方法、及びプログラム |
US10504025B2 (en) | 2015-03-13 | 2019-12-10 | Cisco Technology, Inc. | Parallel processing of data by multiple semantic reasoning engines |
US10547565B2 (en) | 2015-04-02 | 2020-01-28 | Cisco Technology, Inc. | Automatic determination and just-in-time acquisition of data for semantic reasoning |
JP6499537B2 (ja) * | 2015-07-15 | 2019-04-10 | 日本電信電話株式会社 | 接続表現項構造解析装置、方法、及びプログラム |
US10025773B2 (en) * | 2015-07-24 | 2018-07-17 | International Business Machines Corporation | System and method for natural language processing using synthetic text |
US11449744B2 (en) | 2016-06-23 | 2022-09-20 | Microsoft Technology Licensing, Llc | End-to-end memory networks for contextual language understanding |
US10366163B2 (en) * | 2016-09-07 | 2019-07-30 | Microsoft Technology Licensing, Llc | Knowledge-guided structural attention processing |
WO2018111261A1 (en) * | 2016-12-14 | 2018-06-21 | Landmark Graphics Corporation | Automatic classification of drilling reports with deep natural language processing |
US10678673B2 (en) * | 2017-07-12 | 2020-06-09 | Fujitsu Limited | Software program fault localization |
CN107451911A (zh) * | 2017-07-19 | 2017-12-08 | 唐周屹 | 一种基于财务流水数据提供实时可视化信息的方法和系统 |
US20190043125A1 (en) * | 2017-08-02 | 2019-02-07 | Ronnie D. Cropper | Credit report dispute automation |
US11488029B2 (en) | 2017-09-15 | 2022-11-01 | International Business Machines Corporation | Cognitive process code generation |
US10846644B2 (en) * | 2017-09-15 | 2020-11-24 | International Business Machines Corporation | Cognitive process learning |
US10628777B2 (en) | 2017-09-15 | 2020-04-21 | International Business Machines Corporation | Cognitive process enactment |
US20200117721A1 (en) * | 2018-10-10 | 2020-04-16 | Cigna Intellectual Property, Inc. | Modeling Method For Data Archival |
US11200196B1 (en) | 2018-10-10 | 2021-12-14 | Cigna Intellectual Property, Inc. | Data archival system and method |
US11003859B2 (en) * | 2018-11-30 | 2021-05-11 | International Business Machines Corporation | Machine-learning automated structural quality analysis |
US11676582B2 (en) * | 2019-02-27 | 2023-06-13 | Google Llc | Detecting conversations with computing devices |
KR20210013607A (ko) * | 2019-02-27 | 2021-02-04 | 구글 엘엘씨 | 컴퓨팅 장치를 사용한 지속적인 대화 감지 |
US11308274B2 (en) * | 2019-05-17 | 2022-04-19 | International Business Machines Corporation | Word grouping using a plurality of models |
US11120227B1 (en) * | 2019-07-01 | 2021-09-14 | Unified Compliance Framework (Network Frontiers) | Automatic compliance tools |
US10769379B1 (en) | 2019-07-01 | 2020-09-08 | Unified Compliance Framework (Network Frontiers) | Automatic compliance tools |
CN113128201B (zh) * | 2019-12-31 | 2024-07-26 | 阿里巴巴集团控股有限公司 | 句子相似度确定方法、答案搜索方法、装置、设备、系统及介质 |
CN111796830B (zh) * | 2020-06-08 | 2023-09-19 | 成都数之联科技股份有限公司 | 一种协议解析处理方法、装置、设备及介质 |
EP4205018A1 (en) | 2020-08-27 | 2023-07-05 | Unified Compliance Framework (Network Frontiers) | Automatically identifying multi-word expressions |
CN112507688B (zh) * | 2020-12-16 | 2024-08-09 | 咪咕数字传媒有限公司 | 文本相似度分析方法、装置、电子设备及可读存储介质 |
US11164153B1 (en) * | 2021-04-27 | 2021-11-02 | Skyhive Technologies Inc. | Generating skill data through machine learning |
CN113535973B (zh) * | 2021-06-07 | 2023-06-23 | 中国科学院软件研究所 | 基于知识映射的事件关系抽取、语篇关系分析方法及装置 |
US11373146B1 (en) | 2021-06-30 | 2022-06-28 | Skyhive Technologies Inc. | Job description generation based on machine learning |
US20230031040A1 (en) | 2021-07-20 | 2023-02-02 | Unified Compliance Framework (Network Frontiers) | Retrieval interface for content, such as compliance-related content |
US12087413B2 (en) | 2021-09-21 | 2024-09-10 | Unitedhealth Group Incorporated | Method, apparatus and computer program product for graph-based encoding of natural language data objects |
US20230162121A1 (en) * | 2021-11-05 | 2023-05-25 | Accenture Global Solutions Limited | Unified, cross-channel, multidimensional insight generation |
US11928720B2 (en) | 2022-01-31 | 2024-03-12 | Home Depot Product Authority, Llc | Product recommendations based on characteristics from end user-generated text |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070106499A1 (en) * | 2005-08-09 | 2007-05-10 | Kathleen Dahlgren | Natural language search system |
CN101017432A (zh) * | 2006-12-06 | 2007-08-15 | 武汉大学 | 一种构件库管理方法 |
CN101238461A (zh) * | 2005-06-03 | 2008-08-06 | 汤姆森环球资源公司 | 能够访问开放网络内容的付费访问法律研究系统 |
US20090083677A1 (en) * | 2007-09-24 | 2009-03-26 | Microsoft Corporation | Method for making digital documents browseable |
CN101702944A (zh) * | 2007-03-15 | 2010-05-05 | 发明机器公司 | 用于识别自然语言文件中的整体-部分关系的语义处理器 |
Family Cites Families (64)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5369575A (en) | 1992-05-15 | 1994-11-29 | International Business Machines Corporation | Constrained natural language interface for a computer system |
US6139201A (en) | 1994-12-22 | 2000-10-31 | Caterpillar Inc. | Integrated authoring and translation system |
US5774833A (en) | 1995-12-08 | 1998-06-30 | Motorola, Inc. | Method for syntactic and semantic analysis of patent text and drawings |
JP3692764B2 (ja) | 1998-02-25 | 2005-09-07 | 株式会社日立製作所 | 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体 |
US6167370A (en) | 1998-09-09 | 2000-12-26 | Invention Machine Corporation | Document semantic analysis/selection with knowledge creativity capability utilizing subject-action-object (SAO) structures |
US6715130B1 (en) | 1998-10-05 | 2004-03-30 | Lockheed Martin Corporation | Software requirements metrics and evaluation process |
US6343297B1 (en) | 1998-12-30 | 2002-01-29 | International Business Machines Corporation | Methods, systems and computer program products for providing document management for software development systems |
US7404175B2 (en) | 2000-10-10 | 2008-07-22 | Bea Systems, Inc. | Smart generator |
US7392174B2 (en) * | 2000-03-20 | 2008-06-24 | Freeman Robert J | Natural-language processing system using a large corpus |
GB0006721D0 (en) | 2000-03-20 | 2000-05-10 | Mitchell Thomas A | Assessment methods and systems |
US6681383B1 (en) | 2000-04-04 | 2004-01-20 | Sosy, Inc. | Automatic software production system |
US7334216B2 (en) | 2000-04-04 | 2008-02-19 | Sosy, Inc. | Method and apparatus for automatic generation of information system user interfaces |
US7111076B2 (en) | 2000-04-13 | 2006-09-19 | Intel Corporation | System using transform template and XML document type definition for transforming message and its reply |
US7146422B1 (en) | 2000-05-01 | 2006-12-05 | Intel Corporation | Method and apparatus for validating documents based on a validation template |
US8443035B2 (en) | 2000-09-01 | 2013-05-14 | OP40 Holding, Inc. | System and method for collaboration using web browsers |
AU2001290646A1 (en) | 2000-09-08 | 2002-03-22 | The Regents Of The University Of California | Data source integration system and method |
US20020065857A1 (en) | 2000-10-04 | 2002-05-30 | Zbigniew Michalewicz | System and method for analysis and clustering of documents for search engine |
JP3690730B2 (ja) | 2000-10-24 | 2005-08-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造回復システム、構文解析システム、変換システム、コンピュータ装置、構文解析方法、及び記憶媒体 |
US20020184397A1 (en) | 2001-02-15 | 2002-12-05 | Raymond Cooper | Method and apparatus for providing a custom cataloging procedure |
US20020165717A1 (en) | 2001-04-06 | 2002-11-07 | Solmer Robert P. | Efficient method for information extraction |
US7337102B2 (en) | 2003-12-29 | 2008-02-26 | The Mathworks, Inc. | Hierarchical references or links in modeling environments |
US20040215443A1 (en) | 2001-07-27 | 2004-10-28 | Hatton Charles Malcolm | Computers that communicate in the english language and complete work assignments by reading english language sentences |
US7133862B2 (en) | 2001-08-13 | 2006-11-07 | Xerox Corporation | System with user directed enrichment and import/export control |
NO316480B1 (no) | 2001-11-15 | 2004-01-26 | Forinnova As | Fremgangsmåte og system for tekstuell granskning og oppdagelse |
EP1532542A1 (en) | 2002-05-14 | 2005-05-25 | Verity, Inc. | Apparatus and method for region sensitive dynamically configurable document relevance ranking |
US20030220853A1 (en) | 2002-05-22 | 2003-11-27 | Andrew Back | User interface for bill of materials |
US7593891B2 (en) | 2003-05-30 | 2009-09-22 | Experian Scorex Llc | Credit score simulation |
US7373596B2 (en) | 2002-08-01 | 2008-05-13 | Koninklijke Philips Electronics N.V. | Precise UML modeling framework of the DICOM information model |
US20040030540A1 (en) | 2002-08-07 | 2004-02-12 | Joel Ovil | Method and apparatus for language processing |
US7302383B2 (en) | 2002-09-12 | 2007-11-27 | Luis Calixto Valles | Apparatus and methods for developing conversational applications |
US7603653B2 (en) | 2004-03-15 | 2009-10-13 | Ramco Systems Limited | System for measuring, controlling, and validating software development projects |
US7500185B2 (en) | 2004-04-29 | 2009-03-03 | Koninklijke Philips Electronics N.V. | Framework of validating DICOM structured reporting documents using XSLT technology |
JP4716709B2 (ja) | 2004-06-10 | 2011-07-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造化文書処理装置、構造化文書処理方法、及びプログラム |
US7877737B2 (en) | 2004-07-23 | 2011-01-25 | University Of Maryland | Tree-to-graph folding procedure for systems engineering requirements |
JP2006039120A (ja) * | 2004-07-26 | 2006-02-09 | Sony Corp | 対話装置および対話方法、並びにプログラムおよび記録媒体 |
US7475093B2 (en) | 2004-10-15 | 2009-01-06 | Microsoft Corporation | Memory cache management in XML/relational data mapping |
US20060085451A1 (en) | 2004-10-15 | 2006-04-20 | Microsoft Corporation | Mapping of schema data into data structures |
US7694222B2 (en) | 2004-12-08 | 2010-04-06 | Steen David A | Document composition system and method |
EP1672547A1 (en) | 2004-12-15 | 2006-06-21 | C.R.F. Societa' Consortile per Azioni | Event-driven model generated from an ordered natural language interface |
US7555713B2 (en) | 2005-02-22 | 2009-06-30 | George Liang Yang | Writing and reading aid system |
US7774743B1 (en) | 2005-03-04 | 2010-08-10 | Sprint Communications Company L.P. | Quality index for quality assurance in software development |
US7742939B1 (en) * | 2005-03-04 | 2010-06-22 | Sprint Communications Company L.P. | Visibility index for quality assurance in software development |
US20060265646A1 (en) | 2005-05-23 | 2006-11-23 | International Business Machines Corporation | System, method, and computer program product for detection of potentially-problematic terminology in documents |
US20060282266A1 (en) | 2005-06-13 | 2006-12-14 | Microsoft Corporation | Static analysis of grammars |
US7752094B2 (en) | 2005-07-19 | 2010-07-06 | Accenture Global Services Gmbh | Tax scorecard reporting system |
US8036876B2 (en) * | 2005-11-04 | 2011-10-11 | Battelle Memorial Institute | Methods of defining ontologies, word disambiguation methods, computer systems, and articles of manufacture |
US20070143329A1 (en) | 2005-12-16 | 2007-06-21 | Eric Arno Vigen | System and method for analyzing communications using multi-dimensional hierarchical structures |
JP5121146B2 (ja) | 2006-02-22 | 2013-01-16 | 株式会社東芝 | 構造化文書管理装置、構造化文書管理プログラムおよび構造化文書管理方法 |
US20070244859A1 (en) | 2006-04-13 | 2007-10-18 | American Chemical Society | Method and system for displaying relationship between structured data and unstructured data |
WO2007142998A2 (en) | 2006-05-31 | 2007-12-13 | Kaava Corp. | Dynamic content analysis of collected online discussions |
US20080033897A1 (en) | 2006-08-02 | 2008-02-07 | Lloyd Kenneth A | Object Oriented System and Method of Graphically Displaying and Analyzing Complex Systems |
US8594996B2 (en) * | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
US8266519B2 (en) | 2007-11-27 | 2012-09-11 | Accenture Global Services Limited | Document analysis, commenting, and reporting system |
US8190628B1 (en) * | 2007-11-30 | 2012-05-29 | Google Inc. | Phrase generation |
US8645391B1 (en) * | 2008-07-03 | 2014-02-04 | Google Inc. | Attribute-value extraction from structured documents |
US8190423B2 (en) * | 2008-09-05 | 2012-05-29 | Trigent Software Ltd. | Word sense disambiguation using emergent categories |
US20110112823A1 (en) * | 2009-11-06 | 2011-05-12 | Tatu Ylonen Oy Ltd | Ellipsis and movable constituent handling via synthetic token insertion |
US9305271B2 (en) * | 2009-12-17 | 2016-04-05 | Siemens Aktiengesellschaft | Method and an apparatus for automatically providing a common modelling pattern |
EP2362333A1 (en) | 2010-02-19 | 2011-08-31 | Accenture Global Services Limited | System for requirement identification and analysis based on capability model structure |
US8812297B2 (en) * | 2010-04-09 | 2014-08-19 | International Business Machines Corporation | Method and system for interactively finding synonyms using positive and negative feedback |
US8554542B2 (en) * | 2010-05-05 | 2013-10-08 | Xerox Corporation | Textual entailment method for linking text of an abstract to text in the main body of a document |
US20110289081A1 (en) * | 2010-05-20 | 2011-11-24 | Intelliresponse Systems Inc. | Response relevance determination for a computerized information search and indexing method, software and device |
US8738377B2 (en) * | 2010-06-07 | 2014-05-27 | Google Inc. | Predicting and learning carrier phrases for speech input |
US8504506B2 (en) * | 2010-11-16 | 2013-08-06 | International Business Machines Corporation | Systems and methods for modeling and analyzing solution requirements and assets |
-
2011
- 2011-12-14 US US13/325,596 patent/US9400778B2/en active Active
-
2012
- 2012-01-23 EP EP12702131.9A patent/EP2671170A2/en not_active Ceased
- 2012-01-23 CN CN201280014286.8A patent/CN103443787B/zh active Active
- 2012-01-23 WO PCT/US2012/022176 patent/WO2012106133A2/en active Application Filing
- 2012-01-23 AU AU2012212638A patent/AU2012212638B2/en not_active Ceased
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101238461A (zh) * | 2005-06-03 | 2008-08-06 | 汤姆森环球资源公司 | 能够访问开放网络内容的付费访问法律研究系统 |
US20070106499A1 (en) * | 2005-08-09 | 2007-05-10 | Kathleen Dahlgren | Natural language search system |
CN101017432A (zh) * | 2006-12-06 | 2007-08-15 | 武汉大学 | 一种构件库管理方法 |
CN101702944A (zh) * | 2007-03-15 | 2010-05-05 | 发明机器公司 | 用于识别自然语言文件中的整体-部分关系的语义处理器 |
US20090083677A1 (en) * | 2007-09-24 | 2009-03-26 | Microsoft Corporation | Method for making digital documents browseable |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107666987B (zh) * | 2015-07-02 | 2020-10-16 | 埃森哲环球服务有限公司 | 机器人过程自动化 |
CN107666987A (zh) * | 2015-07-02 | 2018-02-06 | 埃森哲环球服务有限公司 | 机器人过程自动化 |
CN105589813B (zh) * | 2015-07-02 | 2018-12-25 | 中国银联股份有限公司 | 一种电子文档版本变化跟踪方法 |
CN105589813A (zh) * | 2015-07-02 | 2016-05-18 | 中国银联股份有限公司 | 一种电子文档版本变化跟踪方法 |
CN107402912A (zh) * | 2016-05-19 | 2017-11-28 | 北京京东尚科信息技术有限公司 | 解析语义的方法和装置 |
CN107402912B (zh) * | 2016-05-19 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 解析语义的方法和装置 |
US10950021B2 (en) | 2018-04-23 | 2021-03-16 | Accenture Global Solutions Limited | AI-driven design platform |
US11244484B2 (en) | 2018-04-23 | 2022-02-08 | Accenture Global Solutions Limited | AI-driven design platform |
CN110807311A (zh) * | 2018-07-18 | 2020-02-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109614624A (zh) * | 2018-12-12 | 2019-04-12 | 广东小天才科技有限公司 | 一种英文语句的识别方法及电子设备 |
US11704802B2 (en) | 2019-11-07 | 2023-07-18 | Accenture Global Solutions Limited | Multi-dimensional model merge for style transfer |
US11455552B2 (en) | 2019-11-22 | 2022-09-27 | Accenture Global Solutions Limited | Intelligent design platform using industrialized experience in product designs |
CN111553143A (zh) * | 2020-04-30 | 2020-08-18 | 河北省讯飞人工智能研究院 | 文本纠错方法、相关设备及可读存储介质 |
US11586783B2 (en) | 2020-05-21 | 2023-02-21 | Accenture Global Solutions Limited | Intelligent design platform using digital assistants for design process support |
US11941771B2 (en) | 2021-02-03 | 2024-03-26 | Accenture Global Solutions Limited | Multi-dimensional model texture transfer |
Also Published As
Publication number | Publication date |
---|---|
US9400778B2 (en) | 2016-07-26 |
WO2012106133A3 (en) | 2012-09-20 |
WO2012106133A2 (en) | 2012-08-09 |
EP2671170A2 (en) | 2013-12-11 |
AU2012212638B2 (en) | 2014-10-30 |
CN103443787B (zh) | 2016-10-12 |
AU2012212638A1 (en) | 2013-08-22 |
US20120197631A1 (en) | 2012-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103443787B (zh) | 用于标识文本关系的系统 | |
Chuang et al. | Interpretation and trust: Designing model-driven visualizations for text analysis | |
Dima et al. | Adapting natural language processing for technical text | |
US20160371618A1 (en) | Risk identification and risk register generation system and engine | |
Chen et al. | Mining user requirements to facilitate mobile app quality upgrades with big data | |
Bhatia et al. | Mining privacy goals from privacy policies using hybridized task recomposition | |
Li et al. | An intelligent approach to data extraction and task identification for process mining | |
Cheligeer et al. | Machine learning in requirements elicitation: A literature review | |
Chou et al. | Integrating XBRL data with textual information in Chinese: A semantic web approach | |
Barbieri et al. | A natural language querying interface for process mining | |
Zhong et al. | Natural language processing for systems engineering: automatic generation of systems modelling language diagrams | |
Tarnowska et al. | Sentiment analysis of customer data | |
de Almeida Bordignon et al. | Natural language processing in business process identification and modeling: a systematic literature review | |
Liu et al. | Supporting features updating of apps by analyzing similar products in App stores | |
CN114303140A (zh) | 与产品和服务相关的知识产权数据分析 | |
Zhang et al. | Mining Healthcare Procurement Data Using Text Mining and Natural Language Processing--Reflection From An Industrial Project | |
Ohana | Opinion mining with the SentWordNet lexical resource | |
US20230072607A1 (en) | Data augmentation and enrichment | |
Lapeña et al. | Leveraging BPMN particularities to improve traceability links recovery among requirements and BPMN models | |
Zhu | Financial data analysis application via multi-strategy text processing | |
Iren et al. | Leveraging business process improvement with natural language processing and organizational semantic knowledge | |
CN113095078A (zh) | 关联资产确定方法、装置和电子设备 | |
Lupi et al. | Automatic definition of engineer archetypes: A text mining approach | |
US20240070588A1 (en) | Intelligent systems and methods for managing application portfolios | |
Kaltenboeck et al. | Project European Language Equality (ELE) Grant agreement no. LC-01641480–101018166 ELE Coordinator Prof. Dr. Andy Way (DCU) Co-coordinator Prof. Dr. Georg Rehm (DFKI) Start date, duration 01-01-2021, 18 months |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |