CN110019704A - 语句分析及人机交互方法和装置、计算设备、存储介质 - Google Patents
语句分析及人机交互方法和装置、计算设备、存储介质 Download PDFInfo
- Publication number
- CN110019704A CN110019704A CN201710966498.0A CN201710966498A CN110019704A CN 110019704 A CN110019704 A CN 110019704A CN 201710966498 A CN201710966498 A CN 201710966498A CN 110019704 A CN110019704 A CN 110019704A
- Authority
- CN
- China
- Prior art keywords
- sentence
- model
- denied
- mark
- dependence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
公开了一种语句分析及人机交互方法和装置、计算设备、存储介质。首先,提取语句中的第一元素。然后,确定该语句中与第一元素具有依存关系的第二元素。基于所述第二元素,确定被否定的第一元素。由此,能够识别用户输入的语句中的否定关系,准确地理解用户的意图,避免相反地理解用户的本意。
Description
技术领域
本公开涉及自然语言处理领域,特别涉及语句分析及人机交互。
背景技术
随着计算机技术及互联网技术的飞速发展,人机交互的形式也越来越丰富,越来越方便。计算系统已经开始有能力处理人类自然语言,可以基于自然语言进行分析,获取有效信息,并做出响应或执行相应操作。这样的自然语言可以是书面文字,也可以是语音输入。当直接接收用户以自然语言发出的语音输入,并通过分析理解输入语音来做出对应的响应,例如执行相应的操作时,能够极大地增加人机交互的便利性。
在对话理解的服务中,需要对用户的自然语言输入进行理解。在例如使用语音输入方式的情况下,一般采用的是SLU(Spoken Language Understanding,口语理解)的方式,包含了意图理解(Intent Detection)、元素抽取(Slot Filling)的步骤。
在元素抽取过程中,会提取一些有用的元素。如,对于输入语句“帮我订张飞机票,明天早上起飞,从杭州到广州的”,里面包含的需要提取的元素(可以称为“第一元素”)有:(time,明天早上),(departure,杭州),(arrival,广州)。各括号中逗号前面是第一元素项目名称,例如time(时间)、departure(出发地)、arrival(到达地)等。对于属于不同领域的语句,往往具有不同的第一元素项目。上述括号中逗号后面是从输入语句中提取出的与该第一元素项目对应的第一元素数据。这样就可以理解输入语句的含义了。
但是,目前的元素提取方案中,尚不能处理第一元素的否定关系。这种情况下有可能不能正确理解用户的意愿,甚至有可能理解相反。
例如,用户的一个自然输入有可能为“帮我订张飞机票,明天早上起飞,从杭州到广州的,不要南航”,用现有的方法,很有可能还会抽取出(flight,南航)的元素,忽略了用户的否定需求,从而造成理解错误。
因此,仍然需要对现有的语句理解方案进行改进,识别用户输入的语句中的否定关系。
发明内容
本公开的一个技术问题在于提供一种语句分析方案,其能够识别用户输入的语句中的否定关系,避免相反地理解用户的本意。
根据本公开第一方面,提供了一种语句分析方法,包括:提取语句中的第一元素;确定语句中与第一元素具有依存关系的第二元素;以及基于第二元素,确定被否定的第一元素。
优选地,该语句分析方法还可以包括:识别语句所属的领域,每个领域分别涉及预定的第一元素项目,其中,在提取语句中的元素的步骤中,提取与语句所属领域的第一元素项目对应的第一元素。
优选地,可以通过对语句进行依存句法分析,来确定语句中与第一元素具有依存关系的第二元素。
优选地,可以基于第二元素,并参考第一元素与第二元素之间的依存关系类型,来确定第一元素是否被否定。
优选地,第二元素可以包括第一元素的父节点元素和/或子节点元素。
优选地,可以使用标注模型来提取语句中的第一元素,标注模型可以是条件随机场(CRF)模型或循环神经网络(RNN)模型。
优选地,可以使用二分类模型来确定第一元素是否被否定,二分类模型可以是逻辑回归(LR)模型或渐进梯度决策树(GBDT)模型。
优选地,该语句分析方法还可以包括:按照BIEO标注法对训练语料进行标注,以标注语料中第一元素的开始部分(B)、中间部分(I)及结束部分(E),以及其它字词(O);以及使用经过标注的训练语料对标注模型进行训练。
优选地,该语句分析方法还可以包括:基于训练语料生成分别针对训练语料中各个第一元素的训练样本,训练样本包括第一元素、第二元素、第一元素与第二元素之间的依存关系、第一元素是否被否定的标注;以及使用训练样本对二分类模型进行训练。
根据本公开第二方面,提供了一种人机交互方法,包括:使用根据本公开第一方面的语句分析方法,对语句进行分析,提取语句中的第一元素,并确定其中被否定的第一元素;以及基于从语句中提取的第一元素以及第一元素是否被否定,作出对应的响应。
根据本公开第三方面,提供了一种语句分析装置,包括:元素提取装置,用于提取语句中的第一元素;节点分析装置,用于确定语句中与第一元素具有依存关系的第二元素;以及确定装置,用于基于第二元素,确定被否定的第一元素。
优选地,该语句分析装置还可以包括:领域划分装置,用于识别语句所属的领域,每个领域分别涉及预定的至少一个第一元素项目,其中,元素提取装置提取与语句所属领域的第一元素项目对应的第一元素。
优选地,节点分析装置可以通过对语句进行依存句法分析,来确定语句中与第一元素具有依存关系的第二元素。
优选地,确定装置可以基于第二元素,并参考第一元素与第二元素之间的依存关系类型,来确定第一元素是否被否定。
优选地,第二元素可以包括第一元素的父节点元素和/或子节点元素。
优选地,元素提取装置可以使用标注模型来提取语句中的第一元素,标注模型可以是条件随机场(CRF)模型或循环神经网络(RNN)模型。
优选地,确定装置可以使用二分类模型来确定第一元素是否被否定,二分类模型可以是逻辑回归(LR)模型或渐进梯度决策树(GBDT)模型。
优选地,该语句分析装置还可以包括:元素标注装置,用于按照BIEO标注法对训练语料进行标注,以标注语料中第一元素的开始部分(B)、中间部分(I)及结束部分(E),以及其它字词(O),其中,经过标注的训练语料用于对标注模型进行训练。
优选地,该语句分析装置还可以包括:关系标注装置,用于基于训练语料生成分别针对训练语料中各个第一元素的训练样本,训练样本包括第一元素、第二元素、第一元素与第二元素之间的依存关系、第一元素是否被否定的标注,其中,训练样本用于对二分类模型进行训练。
根据本公开第四方面,提供了一种人机交互装置,包括:根据本发明第三方面的语句分析装置,用于对语句进行分析,提取语句中的第一元素,并确定被否定的第一元素;以及执行装置,用于基于从语句中提取的第一元素以及第一元素是否被否定,作出对应的响应。
根据本公开第五方面,提供了一种计算设备,包括:处理器;以及存储器,其上存储有可执行代码,当可执行代码被处理器执行时,使处理器执行根据本公开上述第一方面和/或第二方面的方法。
根据本公开第六方面,提供了一种非暂时性机器可读存储介质,其上存储有可执行代码,当可执行代码被电子设备的处理器执行时,使处理器执行根据本公开上述第一方面和/或第二方面的方法。
通过根据本公开的技术方案,能够识别用户输入的语句中的否定关系,准确地理解用户的意图,避免相反地理解用户的本意。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
图1示意性地示出了对可用于本公开的标注模型的训练方案;
图2示意性地示出了对可用于本公开的二分类模型的训练方案;
图3是本公开的语句分析方法及人机交互方法的流程图;
图4示意性地示出了本公开的语句分析及人机交互过程;
图5是根据本公开的人机交互装置的示意性框图;
图6是可以用于执行本公开的语句分析方法及人机交互方法的计算设备的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在根据本公开的语句分析方案中,首先提取用户输入的语句中的第一元素,然后基于与第一元素具有依存关系的第二元素,必要时一并参考第一元素与第二元素之间的依存关系类型,来确定第一元素是否具有否定属性,即该第一元素是否被否定,从而确定被否定的一个或多个第一元素。
首先,参考附图详细描述根据本公开的优选实施方式。
在一个优选实施例中,可以借助标注模型来提取语句中的第一元素,模型,可以借助于二分类模型来确定第一元素是否被否定。为便于理解本公开的技术方案,这里从标注模型和二分类模型开始进行描述。但是应当理解,这里的描述只是示例性的,本公开完全可以采用其它方式来提取语句中的第一元素,采用其它方式来确定第一元素是否被否定。
1.标注模型
这里使用的标注模型可以从多种机器学习模型中选择,例如,可以选用条件随机场(CRF)模型或循环神经网络(RNN)模型。CRF模型和RNN模型均为本领域所公知,这里不再赘述。图2和图4中以RNN模型的示意图形式表示标注模型,但是本领域技术人员应当理解,本公开不限于此。
图1示意性地示出了对可用于本公开的标注模型的训练方案。
可以准备一个语料库120来对标注模型进行训练。语料库中可以包括至少一条语句,分别作为训练语料,例如,“帮我订张飞机票,明天早上起飞,从杭州到广州的,不要南航”。
可以对语料库120中的训练语料进行第一元素标注,生成经过标注的训练语料(训练语料库140),以便于对标注模型进行训练。
例如,可以采用通用的BIEO标注法对训练语料进行标注,将第一元素的开始部分标注为“B”,将第一元素的中间部分标注为“I”,将第一元素的结束部分标注为“E”,其它字词标注为“O”。
例如,对于训练语料“帮我订张飞机票,明天早上起飞,从杭州到广州的,不要南航”,可以将其标注为“帮/O我/O订/O张/O飞/O机/O票/O,明/B-Time天/I-Time早/I-Time上/E-Time,从/O杭/B-Departure州/E-Departure到/O广/B-Arrival州/E-Arrival的/O,不/O要/O南/B-Flight航/E-Filght”。其中,每个字后面标注了“B”、“I”、“E”、“O”,并且在所标注的“B”、“I”、“E”后面注明了其所在的第一元素属于哪个第一元素项目,例如,“Time(时间)”、“Departure(出发地)”、“Arrival(到达地)”、“Flight(航空公司)”等。
如果该标注模型将用于一个特定的领域(意图),例如机票预订,那么语料库120中所有训练语料都属于相同的领域(或者涉及相同的意图),相应地,都涉及相同的第一元素项目。标注时,可以从训练语料中寻找并标注与这些预定的第一元素项目相对应的第一元素。
如果该标注模型将用于多个不同的领域,例如机票预订、火车票预订、电影票预订、酒店预订、天气查询、智能家居控制等等,那么语料库120中不同的训练语料可能涉及不同的领域或意图,相应地,分别涉及不同的第一元素项目。标注时,可以根据该训练语料所涉及的领域或意图而寻找并标注相应的第一元素。
在一些场景下,第一元素项目可以是所涉及的应用领域下,为实现人机交互的目的,需要从用户输入的语句中获取的信息项目。例如,在上文所提到的预订机票的人机交互场景下,需要获取的信息项目有,时间、出发地、到达地、航空公司等,第一元素项目可以包括这些项目。在一些应用中,可以将第一元素称为“有效元素”。
然后,可以将经过标注的训练语料140输入到标注模型160中,以对标注模型160进行训练。
经过训练的标注模型160将能够从新输入的语句中提取出第一元素。
2.二分类模型
二分类模型也可以从多种机器学习模型中选择,例如可以选用逻辑回归(LR)模型或渐进梯度决策树(GBDT)模型。同样,LR模型和GBDT模型均为本领域所公知,这里不再赘述。
图2示意性地示出了对可用于本公开的二分类模型的训练方案。
可以基于语料库准备一个训练样本库来对二分类模型进行训练。这里的语料库可以与上面描述标注模型时提到的语料库相同,也可以不同。
可以提取出语料库中的训练语料中的第一元素,并识别出训练语料中与第一元素有依存关系的元素。为便于描述,本公开将与第一元素有依存关系的元素称为“第二元素”。本公开中的“第一”、“第二”只用来对不同元素进行区分描述,并不意味着对文本任何进一步的限定。另外,第二元素可以不是语句中要提取的第一元素,也可以是第一元素。
第二元素可以包括第一元素的父节点元素和/或子节点元素,也可以是语句中与第一元素具有其它依存关系的元素,特别是具有能够用于体现第一元素的否定属性(是否被否定)的依存关系的元素。
在一些场景中,可以仅考虑父节点元素。在一些场景中,可以仅考虑子节点元素。在另一些场景中,可以既考虑父节点元素,也考虑子节点元素。
下文中,以第二元素为第一元素的父节点元素和/或子节点元素为例进行描述。应当理解,在采用其它第二元素的情况下,这里公开的方案的实施是相同的。
在这里使用的语料库与用于训练标注模型的语料库相同的情况下,在进行例如BIEO标注时,已经提取出了训练语料中的第一元素,可以直接使用经过标注的训练语料140。
在这里使用的语料库与用于训练标注模型的语料库不同的情况下,可以借助已经训练好的标注模型160来提取这里将要使用的语料库中各训练语料的第一元素。
可以人工识别与各第一元素有依存关系的第二元素,例如父节点元素和/或子节点元素。
或者,也可以通过依存句法分析来识别与第一元素有依存关系的第二元素(例如父节点元素和/或子节点元素)以及相应的依存关系240。关于依存句法分析,下文中将加以详细描述。
由此,可以针对每个第一元素分别生成一个训练样本,其中可以包括该第一元素本身、与该第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素)。在优选实施例中,该训练样本中还可以包括该第一元素与该第二元素之间的关系(例如与其父节点元素之间的关系和/或与其子节点元素之间的关系)。
另外,在训练样本中还标注了该第一元素是否被否定。
图2中示意性地示出了针对从训练语料“帮我订张飞机票,明天早上起飞,从杭州到广州的,不要南航”提取出的第一元素“明天早上”、“杭州”、“广州”、“南航”分别生成的训练样本。
例如,第一元素“广州”的父节点元素“到”不具有否定含义,与其父节点元素“到”之间的依存关系为“介宾关系(POB)”,可以认为该第一元素未被否定,即具有肯定属性,可以在标注项中标注“0”。
又例如,第一元素“南航”的父节点元素(第二元素)“不要”具有否定含义,并且与其父节点元素“不要”之间的依存关系为“动宾关系(VOB)”,可以标注该第一元素被否定,即具有否定属性,可以在标注项中标注“1”。当然,也可以将被否定的元素标注为“0”,而将未被否定的元素标注为“1”
第一元素“南航”的父节点元素(第二元素)“不要”具有否定含义,与其父节点元素“不要”之间的依存关系为“动宾关系(VOB)”,可以标注该第一元素被否定,具有否定属性,即标注项设为“1”。
由此,可以得到一个或多个训练样本,形成训练样本库260。
于是,可以使用如此得到的训练样本库中的训练样本对二分类模型进行训练。
经过训练的二分类模型可以用于判断新输入的语句中提取出的第一元素是否被否定(或者说,是否具有否定属性)。
3.依存句法分析
为便于理解本公开中的部分技术内容,在此对依存句法分析进行简要描述。但是应当明白,本公开的技术方案可以利用依存句法分析,但是本公开的创新点不在于依存句法分析的具体实现方式。这里对依存句法分析的细节描述不构成对本发明的限制。
在中国专利文献CN105335348A中描述了依存句法分析。
句法分析就是计算语言学(Computational Linguistics)的一项研究内容,它通过建立形式化的数学模型,设计有效的算法,利用计算机分析和处理句子,将其从词序列形式转换为句法树形式从而捕捉句子内部结构和词语之间的搭配关系。在自然语言处理(NLP,Natural Language Processing)领域,主要分析两种主流的句法体系,分别是短语结构句法体系(Phrase-structure Grammar)和依存结构句法体系(Dependency Grammar)。
依存句法是由法国语言学家L.Tesniere于1959年提出,用于分析语言单位内成分之间的依存关系,以揭示其句法结构,其主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。计算机进行依存句法分析,即是对给定输入句子的词序列,分析各个词之间的搭配关系和整个句子的结构,并得到一棵依存句法分析树。依存句法分析树就是依存句法分析结果的表示形式。在依存句法分析树中,句子的每个词看做一个节点,并在句首插入一个起辅助作用的虚拟节点(记为根节点ROOT),所有节点通过有向弧连接形成一棵树,且满足以下三个条件:
第一,除了根节点外,任意节点都有且仅有一条入边;
第二,除了叶子节点外,任意节点有至少一条出边,根节点仅有一条出边,对应的弧指向支配整个句子的核心词;
第三,所有的弧不能交叉,如果a和b两个节点存在有向弧,则处于他们中间的任意两个节点间的弧在水平方向的投影一定落在a和b的弧的投影上。
在依存句法树中,一条弧代表一则依存关系,弧的方向代表支配顺序。有向弧总是从某个父节点出发,指向其子节点,这称作父节点支配子节点,而子节点依存于父节点。常见的依存关系有:
定中关系(ATT),表示定语依存于中心语;
状中关系(ADV),表示状语依存于中心语;
并列关系(COO),表示名词支配(与之并列)名词;
主谓关系(SBV),表示主语依存于谓语;
介宾关系(POB),表示介词支配宾语;
动宾关系(VOB),表示谓语支配宾语;
核心关系(HED),表示ROOT支配句子核心词;
依存分句(DC),表示主句核心词支配分句核心词。
依存句法分析树中的一条有向弧就叫依存弧。
为了方便计算机处理,还将每个词以及词的若干属性叫做词项,也叫Term。词的属性可以包括单词在句子中的位置、词性和分词粒度等。针对依存句法分析树,需要对词项增加以下额外信息:
对Term序列编号,从0开始计数,其中,ROOT用-1表示;
针对每个Term,增加一个parent属性和一个relate属性,parent表示当前节点的父节点编号,relate表示父节点指向当前节点的依存弧的类型;
如果一个Term的内容是标点符号,则设置parent为-2,relate可以任意设置一个代表孤立节点的字符,例如WP,不参与到依存树的结构中;
句子中的核心词的父节点是ROOT,parent为-1,relate为核心关系(HED)。
这里,详细描述了依存句法分析的一种实现方式。应当理解,在本公开的技术方案中,当应用依存句法分析时,完全可以不限于上面的细节,可以采用其它方式来实现依存句法分析。
4.语句分析及人机交互
下面参考图3至图6描述根据本公开的语句分析及人机交互方案。
图3是本公开的语句分析方法及人机交互方法的流程图。
图4在图3的基础上示意性地示出了本公开的语句分析及人机交互过程。
下面结合图4描述图3所示的语句分析方法及人机交互方法。
图4中,以用户通过语音或文字输入“帮我订张飞机票,今天晚上起飞,从北京到三亚,不要海航”为例进行描述。本公开中以对用户输入的语句进行分析为例进行了描述。应当理解,在一些情况下,将要进行分析的语句也有可能不是用户输入的,而是通过其它途径获得的,例如从预先设立的任务列表中获得的。
在用户所输入的语句(可以称为“待分析语句”)可能具有不同的意图,涉及不同领域,预先不确定该语句属于那个领域的情况下,可以首先在步骤S310,识别(或划分)该语句所属的领域。例如,人机交互业务可能包括机票预订、火车票预订、电影票预订、酒店预订、天气查询、智能家居控制等等领域。
如前文所述,每个领域可以分别涉及预定的至少一个第一元素项目(即,需要提取的元素项目),例如当识别出用户输入的语句涉及机票预订领域时,可知其所涉及的第一元素项目可以包括“Time(时间)”、“Departure(出发地)”、“Arrival(到达地)”、“Flight(航空公司)”等。
如果人机交互业务只涉及一个领域,例如在将本公开的技术方案应用于机票预订应用时,领域是预先确定的,即机票预订。这种情况下,就不需要再对所输入的语句所属的领域进行识别,即步骤S310并不是实现本公开的技术方案所必需的。
接下来,在S320,可以提取语句中的元素。为便于描述,在本公开中,将从语句中提取的元素称为“第一元素”。
图4中示出通过将语句输入到标注模型160中来提取语句中的第一元素。该标注模型160可以采用上面参考图1描述的方法来进行训练,以适于提取该语句中的第一元素。
应当明白,本公开的技术方案也可以采用任何其它方式来从该语句中提取上述第一元素,而不限于上文中所描述的标注模型160。
在已经确定该语句所涉及的领域,并且知道该领域的语句一般将会包括的第一元素项目的情况下,可以从该语句中提取这些第一元素项目对应(或者说,相匹配)的第一元素。
在图4所示示例中,所提取出的第一元素如下:
时间:今天晚上
出发地:北京
到达地:三亚
航空公司:海航
然后,在步骤S330,对该语句进行依存句法分析。关于依存句法分析,上文中已经进行了详细地描述,这里不再赘述。
事实上,本公开的技术方案通过识别与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素),来确定该第一元素是否被否定。借助依存句法分析方法来识别与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素)只是多种分析方法中的一种。本公开的技术方案可以不限于借助依存句法分析来进行第二元素(例如父节点元素和/或子节点元素)的识别。因此,步骤S330并不是实现本公开的技术方案所必需的。
在步骤S340,确定该语句中与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素)。
例如,在执行步骤S330的情况下,可以借助依存句法分析,确定与所述第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素)。关于依存关系及第二元素,上文中也已经给出了详细的描述,在此不再赘述。
例如,针对图4所示示例,可以确定:
第一元素“今天晚上”的父节点元素为“起飞”,父节点元素与该第一元素的关系为状中关系(ADV),表示状语依存于中心语,没有子节点元素;
第一元素“北京”的父节点元素为“从”,父节点元素与该第一元素的关系为介宾关系(POB),表示介词支配宾语,没有子节点元素;
第一元素“三亚”的父节点元素为“到”,父节点元素与该第一元素的关系为介宾关系(POB),表示介词支配宾语,没有子节点元素;
第一元素“海航”的父节点元素为“不要”,父节点元素与该第一元素的关系为动宾关系(VOB),表示谓语支配宾语,没有子节点元素。
在此基础上,在步骤S350,例如可以借助于上文中所描述的二分类模型280,基于与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素),来确定第一元素是否被否定,从而确定被否定的第一元素。应当明白,本公开的技术方案还可以采用其它方式来确定第一元素是否被否定,而不限于采用二分类模型280。
在图4所示示例中,第一元素“今天晚上”、“北京”、“三亚”的父节点元素均没有否定含义。因此,可以确定这些第一元素没有被否定,或者说具有肯定属性。
而第一元素“海航”的父节点元素为“不要”,具有否定含义。因此,可以确定该第一元素被否定,或者说具有否定属性。
一般情况下,可以仅通过第二元素(例如父节点元素和/或子节点元素)本身是否具有否定含义来确定该第一元素是否被否定。这样,在采用二分类模型280来进行判断的情况下,训练以及使用该二分类模型280时,可以不必输入第一元素与父节点元素和/或子节点元素之间的关系。
另外,可以仅基于父节点元素来进行判断,也可以仅基于子节点元素来进行判断,还可以结合父节点元素和子节点元素两者来进行判断。
为了进一步提高判断的准确性,在考虑第二元素(例如父节点元素和/或子节点元素)的基础上,还可以进一步考虑第一元素与第二元素(例如父节点元素和/或子节点元素)之间的关系。即,基于与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素),并参考第一元素与第二元素(例如父节点元素和/或子节点元素)之间的依存关系类型,来确定第一元素是否被否定。这样,在采用二分类模型280来进行判断的情况下,训练以及使用该二分类模型280时,需要在输入第二元素(例如父节点元素和/或子节点元素)之外,进一步输入第一元素与第二元素(例如父节点元素和/或子节点元素)之间的关系。
至此,详细描述了根据本公开的语句分析方法,其通过提取该语句中的第一元素,确定与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素),从而确定该第一元素是否被否定,或者说具有否定属性,并由此确定被否定的第一元素。
接下来,在语句分析从而识别肯定属性/否定属性的基础上,作为人机交互方法,在步骤S360,作出对应的响应。在图4的示例中,将会代用户预订当天晚上从北京到三亚的机票,并且排除海航。
至此,已详细描述了根据本发明的语句分析方法和在该语句分析方法的基础上进一步实现的人机交互方法。
下面参考图5描述根据本公开的人机交互装置。其中一些具体细节与上文中参考图1、图2、图3和图4描述的内容一致,在此不再赘述。
图5是根据本公开的人机交互装置的示意性框图。
该人机交互装置500包括语句分析装置500'和执行装置590。
语句分析装置500'对用户输入的语句进行分析,提取该语句中的第一元素,并确定所提取的第一元素是否被否定,从而确定被否定的第一元素。
执行装置590基于从该语句中提取的第一元素以及第一元素是否被否定,作出对应的响应。
如图5所示,根据本公开的语句分析装置500'可以进一步包括领域划分装置510、元素提取装置530、节点分析装置550和确定装置570。
领域划分装置510识别该语句所属的领域。
与上文参考图3和4针对步骤S310的描述相同,领域划分装置510不是实现本公开的技术方案所必需的装置。至少对于那些针对特定领域的应用,因为领域已经确定,不需要进行领域划分。
元素提取装置530提取语句中的第一元素。
在通过领域划分装置510识别该语句所属的领域的情况下,元素提取装置530可以提取与该语句所属领域的第一元素项目对应的第一元素。
元素提取装置530可以使用上文描述的标注模型来提取语句中的第一元素。
节点分析装置550确定该语句中与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素)。
节点分析装置550可以通过对该语句进行依存句法分析,来确定该语句中与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素)。
确定装置570基于与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素),确定第一元素是否被否定,由此确定被否定的第一元素。
为了进一步提高判断准确性,确定装置570可以基于与第一元素具有依存关系的第二元素(例如父节点元素和/或子节点元素),并参考第一元素与第二元素(例如父节点元素和/或子节点元素)之间的依存关系类型,来确定第一元素是否被否定。
确定装置570可以使用上文中描述的二分类模型来确定第一元素是否被否定。
根据本公开还提供了一种可以用于执行本公开的语句分析方法及人机交互方法的计算设备。
图6是可以用于执行本公开的语句分析方法及人机交互方法的计算设备的示意性框图。
如图6所示,该计算设备600可以包括处理器620和存储器630。存储器630上存储有可执行代码。当处理器620执行该可执行代码时,使得处理器620执行上面描述的语句分析方法和/或人机交互方法。
上文中已经参考附图详细描述了根据本公开的语句分析及人机交互方法和装置、计算设备。
此外,根据本公开的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本公开的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本公开还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本公开的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图显示了根据本公开的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (22)
1.一种语句分析方法,包括:
提取语句中的第一元素;
确定所述语句中与所述第一元素具有依存关系的第二元素;以及
基于所述第二元素,确定被否定的第一元素。
2.根据权利要求1所述的语句分析方法,还包括:
识别所述语句所属的领域,每个领域分别涉及预定的第一元素项目,
其中,在所述提取语句中的第一元素的步骤中,提取与所述语句所属领域的第一元素项目对应的第一元素。
3.根据权利要求1所述的语句分析方法,其中,
通过对所述语句进行依存句法分析,来确定所述语句中与所述第一元素具有依存关系的第二元素。
4.根据权利要求1所述的语句分析方法,其中,
基于所述第二元素,并参考所述第一元素与第二元素之间的依存关系类型,来确定所述第一元素是否被否定。
5.根据权利要求1-4中任何一项所述的语句分析方法,其中,
所述第二元素包括所述第一元素的父节点元素和/或子节点元素。
6.根据权利要求1-4中任何一项所述的语句分析方法,其中,
使用标注模型来提取所述语句中的第一元素;并且/或者
使用二分类模型来确定所述第一元素是否被否定。
7.根据权利要求6所述的语句分析方法,其中,
所述标注模型是条件随机场(CRF)模型或循环神经网络(RNN)模型;并且/或者
所述二分类模型是逻辑回归(LR)模型或渐进梯度决策树(GBDT)模型。
8.根据权利要求6所述的语句分析方法,还包括:
按照BIEO标注法对训练语料进行标注,以标注语料中第一元素的开始部分(B)、中间部分(I)及结束部分(E),以及其它字词(O);以及
使用经过标注的训练语料对所述标注模型进行训练。
9.根据权利要求6所述的语句分析方法,还包括:
基于训练语料生成分别针对所述训练语料中各个第一元素的训练样本,所述训练样本包括所述第一元素、所述第二元素、所述第一元素与第二元素之间的依存关系、所述第一元素是否被否定的标注;以及
使用所述训练样本对所述二分类模型进行训练。
10.一种人机交互方法,包括:
使用根据权利要求1-9中任何一项所述的语句分析方法,对语句进行分析,提取语句中的第一元素,并确定其中被否定的第一元素;以及
基于从所述语句中提取的第一元素以及所述第一元素是否被否定,作出对应的响应。
11.一种语句分析装置,包括:
元素提取装置,用于提取语句中的第一元素;
节点分析装置,用于确定所述语句中与所述第一元素具有依存关系的第二元素;以及
确定装置,用于基于所述第二元素,确定被否定的第一元素。
12.根据权利要求11所述的语句分析装置,还包括:
领域划分装置,用于识别所述语句所属的领域,每个领域分别涉及预定的至少一个第一元素项目,
其中,元素提取装置提取与所述语句所属领域的第一元素项目对应的第一元素。
13.根据权利要求11所述的语句分析装置,其中,
所述节点分析装置通过对所述语句进行依存句法分析,来确定所述语句中与所述第一元素具有依存关系的第二元素。
14.根据权利要求11所述的语句分析装置,其中,
所述确定装置基于所述第二元素,并参考所述第一元素与第二元素之间的依存关系类型,来确定所述第一元素是否被否定。
15.根据权利要求11-14中任何一项所述的语句分析装置,其中,
所述第二元素包括所述第一元素的父节点元素和/或子节点元素。
16.根据权利要求11-14中任何一项所述的语句分析装置,其中,
所述元素提取装置使用标注模型来提取所述语句中的第一元素;并且/或者
所述确定装置使用二分类模型来确定所述第一元素是否被否定。
17.根据权利要求16所述的语句分析装置,其中,
所述标注模型是条件随机场(CRF)模型或循环神经网络(RNN)模型;并且/或者
所述二分类模型是逻辑回归(LR)模型或迭代决策树(GBDT)模型。
18.根据权利要求16所述的语句分析装置,还包括:
元素标注装置,用于按照BIEO标注法对训练语料进行标注,以标注语料中第一元素的开始部分(B)、中间部分(I)及结束部分(E),以及其它字词(O),
其中,经过标注的训练语料用于对所述标注模型进行训练。
19.根据权利要求16所述的语句分析装置,还包括:
关系标注装置,用于基于训练语料生成分别针对所述训练语料中各个第一元素的训练样本,所述训练样本包括所述第一元素、所述第二元素、所述第一元素与第二元素之间的依存关系、所述第一元素是否被否定的标注,
其中,所述训练样本用于对所述二分类模型进行训练。
20.一种人机交互装置,包括:
根据权利要求11-19中任何一项所述的语句分析装置,用于对语句进行分析,提取语句中的第一元素,并确定被否定的第一元素;以及
执行装置,用于基于从所述语句中提取的第一元素以及所述第一元素是否被否定,作出对应的响应。
21.一种计算设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-10中任何一项所述的方法。
22.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1至10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710966498.0A CN110019704B (zh) | 2017-10-17 | 2017-10-17 | 语句分析及人机交互方法和装置、计算设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710966498.0A CN110019704B (zh) | 2017-10-17 | 2017-10-17 | 语句分析及人机交互方法和装置、计算设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019704A true CN110019704A (zh) | 2019-07-16 |
CN110019704B CN110019704B (zh) | 2023-01-17 |
Family
ID=67186642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710966498.0A Active CN110019704B (zh) | 2017-10-17 | 2017-10-17 | 语句分析及人机交互方法和装置、计算设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019704B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446405A (zh) * | 2019-09-04 | 2021-03-05 | 杭州九阳小家电有限公司 | 一种家电客服的用户意图引导方法及智能家电 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104166643A (zh) * | 2014-08-19 | 2014-11-26 | 南京金娃娃软件科技有限公司 | 一种智能问答系统中的对话行为分析方法 |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
CN105224640A (zh) * | 2015-09-25 | 2016-01-06 | 杭州朗和科技有限公司 | 一种提取观点的方法和设备 |
CN105335348A (zh) * | 2014-08-07 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于目标语句的依存句法分析方法、装置及服务器 |
CN105930452A (zh) * | 2016-04-21 | 2016-09-07 | 北京紫平方信息技术股份有限公司 | 一种识别自然语言的智能应答方法 |
CN106682397A (zh) * | 2016-12-09 | 2017-05-17 | 江西中科九峰智慧医疗科技有限公司 | 一种基于知识的电子病历质控方法 |
-
2017
- 2017-10-17 CN CN201710966498.0A patent/CN110019704B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335348A (zh) * | 2014-08-07 | 2016-02-17 | 阿里巴巴集团控股有限公司 | 基于目标语句的依存句法分析方法、装置及服务器 |
CN104166643A (zh) * | 2014-08-19 | 2014-11-26 | 南京金娃娃软件科技有限公司 | 一种智能问答系统中的对话行为分析方法 |
CN104915334A (zh) * | 2015-05-29 | 2015-09-16 | 浪潮软件集团有限公司 | 一种基于语义分析的招投标项目关键信息自动化提取方法 |
CN105224640A (zh) * | 2015-09-25 | 2016-01-06 | 杭州朗和科技有限公司 | 一种提取观点的方法和设备 |
CN105930452A (zh) * | 2016-04-21 | 2016-09-07 | 北京紫平方信息技术股份有限公司 | 一种识别自然语言的智能应答方法 |
CN106682397A (zh) * | 2016-12-09 | 2017-05-17 | 江西中科九峰智慧医疗科技有限公司 | 一种基于知识的电子病历质控方法 |
Non-Patent Citations (2)
Title |
---|
刘耀眼: "《信息资源挖掘与发现关键技术研究》", 28 February 2018, 北京:科学技术文献出版社 * |
高志强: "《深度学习 从入门到实践》", 30 June 2018, 北京:中国铁道出版社 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112446405A (zh) * | 2019-09-04 | 2021-03-05 | 杭州九阳小家电有限公司 | 一种家电客服的用户意图引导方法及智能家电 |
Also Published As
Publication number | Publication date |
---|---|
CN110019704B (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110717339B (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
Leopold et al. | Supporting process model validation through natural language generation | |
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
Leopold et al. | Generating natural language texts from business process models | |
CN108962224A (zh) | 口语理解和语言模型联合建模方法、对话方法及系统 | |
CN107038229A (zh) | 一种基于自然语义分析的用例提取方法 | |
CN105335348A (zh) | 基于目标语句的依存句法分析方法、装置及服务器 | |
CN109582954A (zh) | 用于输出信息的方法和装置 | |
US20150019202A1 (en) | Ontology and Annotation Driven Grammar Inference | |
CN109858024B (zh) | 一种基于word2vec的房源词向量训练方法及装置 | |
Umber et al. | NL-based automated software requirements elicitation and specification | |
CN110162297A (zh) | 一种源代码段自然语言描述自动生成方法及系统 | |
CN116245097A (zh) | 训练实体识别模型的方法、实体识别方法及对应装置 | |
CN105378706B (zh) | 实体提取反馈 | |
Qundus et al. | AI supported topic modeling using KNIME-workflows | |
CN108932225B (zh) | 用于将自然语言需求转换成为语义建模语言语句的方法和系统 | |
CN110232121A (zh) | 一种基于语义网的管制指令分类方法 | |
CN110019704A (zh) | 语句分析及人机交互方法和装置、计算设备、存储介质 | |
CN111597302B (zh) | 文本事件的获取方法、装置、电子设备及存储介质 | |
CN112307767A (zh) | 一种基于Bi-LSTM技术的调控知识建模方法 | |
CN113377943B (zh) | 多轮智能问答数据处理系统 | |
Chhabra et al. | Formalizing and Verifying Natural Language System Requirements using Petri Nets and Context based Reasoning. | |
CN115906818A (zh) | 语法知识预测方法、装置、电子设备和存储介质 | |
CN115618264A (zh) | 数据资产的主题分类方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40010835 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |