CN110750989A - 一种语句分析的方法及装置 - Google Patents

一种语句分析的方法及装置 Download PDF

Info

Publication number
CN110750989A
CN110750989A CN201911032193.8A CN201911032193A CN110750989A CN 110750989 A CN110750989 A CN 110750989A CN 201911032193 A CN201911032193 A CN 201911032193A CN 110750989 A CN110750989 A CN 110750989A
Authority
CN
China
Prior art keywords
sentence
sentence pattern
target
pattern
phrases
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911032193.8A
Other languages
English (en)
Other versions
CN110750989B (zh
Inventor
郭昱
李长亮
汪美玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Original Assignee
Chengdu Kingsoft Interactive Entertainment Co Ltd
Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kingsoft Interactive Entertainment Co Ltd, Beijing Jinshan Digital Entertainment Technology Co Ltd filed Critical Chengdu Kingsoft Interactive Entertainment Co Ltd
Priority to CN201911032193.8A priority Critical patent/CN110750989B/zh
Publication of CN110750989A publication Critical patent/CN110750989A/zh
Application granted granted Critical
Publication of CN110750989B publication Critical patent/CN110750989B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种语句分析的方法,包括:对目标语句的每个词单元进行词性标注;基于所述目标语句生成短语,并根据每个所述词单元的词性得到每个短语的句式,其中,所述短语包括至少一个词单元;根据所述短语的句式得到所述目标语句的每个子句的句式;根据每个所述子句的句式得到所述目标语句的句式,从而通过词性分析按照词单元—短语—子句—语句的层次逐层简化句式结构,使最终生成的目标语句的句式无需标注每个词单元的词性,降低了目标语句的句式复杂度,便于后续流程的分析。

Description

一种语句分析的方法及装置
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种语句分析的方法及装置、计算设备和计算机可读存储介质。
背景技术
自然语言文本的语义分析任务为根据输入语句的句法结构和句子中每个实词的词义进行语义角色标注,标记出一个语句中描述的事件以及与事件相关的各个角色,从而推导出能够反映该语句句义的形式化表示。
目前,大多中文句式是以宾州树的形式储存,宾州树保存了语句中每一个词的词性信息和不同词语之间的关系,按照名词性短语、动词性短语等不同类型的短语进行分类,选择核心动词作为root节点,连接语句内的所有词语。
由于宾州树对语句中的每一个词都进行连接,导致句式库过于庞大,不方便查询。并且,以核心动词为root节点,使得其无法解析名词性短句。
发明内容
有鉴于此,本申请实施例提供了一种语句分析的方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例提供了一种语句分析的方法,包括:
对目标语句的每个词单元进行词性标注;
基于所述目标语句生成短语,并根据每个所述词单元的词性得到每个短语的句式,其中,所述短语包括至少一个词单元;
根据所述短语的句式得到所述目标语句的每个子句的句式;
根据每个所述子句的句式得到所述目标语句的句式。
可选地,对目标语句的每个词单元进行词性标注,包括:
对目标语句进行分词,得到多个所述词单元;
对每个词单元进行词性标注,得到每个词单元对应的词性标签。
可选地,基于所述目标语句生成短语,包括:对所述目标语句进行短语识别,得到多个所述短语。
可选地,在所述短语包括一个词单元的情况下;
根据每个所述词单元的词性得到每个短语的句式,包括:将所述短语对应的所述词单元的词性标签作为所述短语的句式;
在所述短语包括至少两个相邻的词单元的情况下;
根据每个所述词单元的词性得到每个短语的句式,包括:将所述短语对应的所述词单元的词性标签进行组合,得到每个短语的句式。
可选地,根据所述短语的句式得到所述目标语句的每个子句的句式,包括:
根据所述短语的句式,确定所述短语的词性标签;其中,所述短语的词性标签包括名词性标签和动词性标签;
确定词性标签为名词性标签和动词性标签的短语为目标短语,并将所述目标短语的词性标签按顺序组合,得到所述子句的句式,其中,每个子句包括至少一个短语。
可选地,在所述目标语句包括至少两个子句的情况下;
根据每个所述子句的句式得到所述目标语句的句式,包括:根据每个所述子句的句式以及相邻子句之间的标点,生成所述目标语句的句式;
在所述目标语句包括一个子句的情况下;
根据每个所述子句的句式得到所述目标语句的句式,包括:将所述子句的句式作为所述目标语句的句式。
可选地,所述方法还包括:
将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中。
可选地,将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中,包括:
将所述短语的句式与所述句式库中已存储的短语的句式进行对比,并在确定所述短语的句式未存储于所述句式库中的情况下,将所述短语的句式添加至所述句式库中;
将所述子句的句式与所述句式库中已存储的子句的句式进行对比,并在确定所述子句的句式未存储于所述句式库中的情况下,将所述子句的句式添加至所述句式库中;
将所述目标语句的句式与所述句式库中已存储的语句的句式进行对比,并在确定所述目标语句的句式未存储于所述句式库中的情况下,将所述目标语句的句式添加至所述句式库中。
本申请实施例提供了一种语句分析的装置,包括:
词单元标注模块,被配置为对目标语句的每个词单元进行词性标注;
短语处理模块,被配置为基于所述目标语句生成短语,并根据每个所述词单元的词性得到每个短语的句式,其中,所述短语包括至少一个词单元;
子句处理模块,被配置为根据所述短语的句式得到所述目标语句的每个子句的句式;
语句处理模块,被配置为根据每个所述子句的句式得到所述目标语句的句式。
本申请实施例提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述语句分析的方法的步骤。
本申请实施例提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述语句分析的方法的步骤。
本申请提供的语句分析的方法及装置,通过对目标语句的每个词单元进行词性标注,基于目标语句生成短语,并根据每个词单元的词性得到每个短语的句式,根据短语的句式得到每个子句的句式,然后根据每个子句的句式得到目标语句的句式,从而通过词性分析按照词单元—短语—子句—语句的层次逐层简化句式结构,使最终生成的目标语句的句式无需标注每个词单元的词性,降低了目标语句的句式复杂度,便于后续流程的分析。
并且,在每个子句的句式的生成过程中,只保留了名词性标签和动词性标签,以提取出每个子句的主语、谓语和宾语,将子句的句式简化为基本的主谓宾结构,从而既简化了句式,也保留了每个子句的基本信息。
附图说明
图1是本申请一实施例的语句分析的方法的流程示意图;
图2是本申请一实施例的语句分析的装置的结构示意图;
图3是本申请一实施例的计算设备的结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
词单元(token):语句中基本的、不可再分割的词。
短语:又称词组,是指完整语句中的片段,既可以是一个词单元,也可以是多个词单元的组合。
子句:语句的组成部分,每个子句由至少一个短语组成。
语句:语法上自成体系的单位,一个完整的语句包括至少一个子句,表达一种主张、疑问、命令、愿望或感叹。
在本申请中,提供了一种语句分析的方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。
首先,对本申请实施例中涉及的词单元—短语—子句—语句的层次进行举例说明。以语句“我和小明上午一起打篮球,下午一起参加了学校组织的画展”为例,包括两个子句“我和小明上午一起打篮球”和“下午一起参加了学校组织的画展”。第一个子句包括多个短语:“我和小明”、“上午”、“一起”、“打”、“篮球”,第二个子句包括多个短语:“下午”、“一起”、“参加了”、“学校组织的画展”。每个短语包括至少一个词单元,例如短语“我和小明”包括词单元“我”、“和”以及“小明”,短语“上午”包括词单元“上午”。
本申请实施例公开了一种语句分析的方法,参见图1,包括下述步骤101~104:
101、对目标语句的每个词单元进行词性标注。
具体地,步骤101包括:
对目标语句进行分词,得到多个所述词单元;
对每个词单元进行词性标注,得到每个词单元对应的词性标签。
参见表1,表1示出了词单元对应的词性标签的种类。
表1
Figure BDA0002250479820000061
Figure BDA0002250479820000071
以“我和小明上午一起打篮球”为例,标注结果为“我/PN和/CC小明/NN上午/NT一起/AD打/VV篮球/NN”。
102、基于所述目标语句生成短语,并根据每个所述词单元的词性得到每个短语的句式,其中,所述短语包括至少一个词单元。
具体地,基于所述目标语句生成短语,包括:对所述目标语句进行短语识别,得到多个所述短语。
在短语包括一个词单元的情况下,根据每个词单元的词性得到每个短语的句式,包括:将短语对应的所述词单元的词性标签作为短语的句式。
在短语包括至少两个相邻的词单元的情况下,根据每个词单元的词性得到每个短语的句式,包括:将短语对应的词单元的词性标签进行组合,得到每个短语的句式。
以短语“我和小明”为例,其包括三个词单元,那么该短语的句式为“PN/CC/NN”。
以短语“上午”为例,其包括一个词单元,那么该短语的句式为“NT”。
以短语“学校组织的画展”为例,其包括四个词单元,那么该短语的句式为“NN/VV/DEG/NN”。
本实施例中,短语的常见句式包括NN/NN、NN/VV/DEG/NN、AD/JJ等。
103、根据所述短语的句式得到所述目标语句的每个子句的句式。
具体地,步骤103包括:
S1031、根据所述短语的句式,确定所述短语的词性标签。
参见表2,表2示出了本实施例中的短语的词性标签。
表2
Figure BDA0002250479820000081
仍以上述例句中的短语为例,短语“我和小明”的句式为“PN/CC/NN”,该短语是以名词为主,所以确定该短语的词性标签为“NP”。
具体地,本实施例中的目标语句的短语以及短语的词性标签参见下表3。
表3
Figure BDA0002250479820000091
S1032、确定词性标签为名词性标签和动词性标签的短语为目标短语,并将所述目标短语的词性标签按顺序组合,得到所述子句的句式,其中,每个子句包括至少一个短语。
本实施例中,在每个子句的句式的生成过程中,只保留了名词性标签和动词性标签,以提取出每个子句的主语、谓语和宾语,将子句的句式简化为基本的主谓宾结构,从而既简化了句式,也保留了每个子句的基本信息。
对于本实施例例句的第一个子句,确定词性标签为名词性标签和动词性标签的短语分别为“我和小明”、“打”、“篮球”,得到的子句句式为NP/VP/NP;
对于本实施例例句的第二个子句,确定词性标签为名词性标签和动词性标签的短语分别为“参加”、“学校组织的画展”,得到的子句句式为NP/VP。
104、根据每个所述子句的句式得到所述目标语句的句式。
具体地,在目标语句包括至少两个子句的情况下,根据每个子句的句式得到目标语句的句式,包括:根据每个子句的句式以及相邻子句之间的标点,生成目标语句的句式;
在目标语句包括一个子句的情况下,根据每个子句的句式得到目标语句的句式,包括:将子句的句式作为目标语句的句式。
对于本实施例中的例句,最终得到的目标语句的句式为“NP/VP/NP,NP/VP”。
可选地,在得到短语的句式、子句的句式以及目标语句的句式后,所述方法还包括:将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中,从而不断完善句式库的信息。
具体地,将短语的句式、子句的句式以及目标语句的句式存储于句式库中,包括:
将所述短语的句式与所述句式库中已存储的短语的句式进行对比,并在确定所述短语的句式未存储于所述句式库中的情况下,将所述短语的句式添加至所述句式库中;
将所述子句的句式与所述句式库中已存储的子句的句式进行对比,并在确定所述子句的句式未存储于所述句式库中的情况下,将所述子句的句式添加至所述句式库中;
将所述目标语句的句式与所述句式库中已存储的语句的句式进行对比,并在确定所述目标语句的句式未存储于所述句式库中的情况下,将所述目标语句的句式添加至所述句式库中。
本申请提供的语句分析的方法,通过对目标语句的每个词单元进行词性标注,基于目标语句生成短语,并根据每个词单元的词性得到每个短语的句式,根据短语的句式得到每个子句的句式,然后根据每个子句的句式得到目标语句的句式,从而通过词性分析按照词单元—短语—子句—语句的层次逐层简化句式结构,使最终生成的目标语句的句式无需标注每个词单元的词性,降低了目标语句的句式复杂度,便于后续流程的分析。
通过本实施例的方法,无需再设置root节点,而是直接使用简化后的词性标签解析语句结构,降低了句式的复杂度,且保留了语句的基本信息。
本申请实施例公开了一种语句分析的装置,参见图2,包括:
词单元标注模块201,被配置为对目标语句的每个词单元进行词性标注;
短语处理模块202,被配置为基于所述目标语句生成短语,并根据每个所述词单元的词性得到每个短语的句式,其中,所述短语包括至少一个词单元;
子句处理模块203,被配置为根据所述短语的句式得到所述目标语句的每个子句的句式;
语句处理模块204,被配置为根据每个所述子句的句式得到所述目标语句的句式。
可选地,词单元标注模块201具体被配置为:
对目标语句进行分词,得到多个所述词单元;
对每个词单元进行词性标注,得到每个词单元对应的词性标签。
可选地,短语处理模块202具体被配置为:对所述目标语句进行短语识别,得到多个所述短语。
可选地,在所述短语包括一个词单元的情况下,短语处理模块202具体被配置为:将所述短语对应的所述词单元的词性标签作为所述短语的句式;
在所述短语包括至少两个相邻的词单元的情况下,短语处理模块202具体被配置为:将所述短语对应的所述词单元的词性标签进行组合,得到每个短语的句式。
可选地,所述子句处理模块203具体被配置为:
根据所述短语的句式,确定所述短语的词性标签;其中,所述短语的词性标签包括名词性标签和动词性标签;
确定词性标签为名词性标签和动词性标签的短语为目标短语,并将所述目标短语的词性标签按顺序组合,得到所述子句的句式,其中,每个子句包括至少一个短语。
可选地,在所述目标语句包括至少两个子句的情况下,所述语句处理模块204具体被配置为:根据每个所述子句的句式以及相邻子句之间的标点,生成所述目标语句的句式;
在所述目标语句包括一个子句的情况下,所述语句处理模块204具体被配置为:将所述子句的句式作为所述目标语句的句式。
可选地,所述装置还包括:存储模块,被配置为将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中。
可选地,所述存储模块具体被配置为:
将所述短语的句式与所述句式库中已存储的短语的句式进行对比,并在确定所述短语的句式未存储于所述句式库中的情况下,将所述短语的句式添加至所述句式库中;
将所述子句的句式与所述句式库中已存储的子句的句式进行对比,并在确定所述子句的句式未存储于所述句式库中的情况下,将所述子句的句式添加至所述句式库中;
将所述目标语句的句式与所述句式库中已存储的语句的句式进行对比,并在确定所述目标语句的句式未存储于所述句式库中的情况下,将所述目标语句的句式添加至所述句式库中。
本申请提供的语句分析的装置,通过对目标语句的每个词单元进行词性标注,基于目标语句生成短语,并根据每个词单元的词性得到每个短语的句式,根据短语的句式得到每个子句的句式,然后根据每个子句的句式得到目标语句的句式,从而通过词性分析按照词单元—短语—子句—语句的层次逐层简化句式结构,使最终生成的目标语句的句式无需标注每个词单元的词性,降低了目标语句的句式复杂度,便于后续流程的分析。
上述为本实施例的一种语句分析的装置的示意性方案。需要说明的是,该装置的技术方案与上述的语句分析的方法的技术方案属于同一构思,装置的技术方案未详细描述的细节内容,均可以参见上述语句分析的方法的技术方案的描述。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现以下步骤:
对目标语句的每个词单元进行词性标注;
基于所述目标语句生成短语,并根据每个所述词单元的词性得到每个短语的句式,其中,所述短语包括至少一个词单元;
根据所述短语的句式得到所述目标语句的每个子句的句式;
根据每个所述子句的句式得到所述目标语句的句式。
图3是示出了根据本说明书一实施例的计算设备300的结构框图。该计算设备300的部件包括但不限于存储器310和处理器320。处理器320与存储器310通过总线330相连接,数据库350用于保存数据。
计算设备300还包括接入设备340,接入设备340使得计算设备300能够经由一个或多个网络360通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备340可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备300的上述部件以及图3中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图3所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备300可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备300还可以是移动式或静止式的服务器。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述语句分析的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的语句分析的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述语句分析的方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (11)

1.一种语句分析的方法,其特征在于,包括:
对目标语句的每个词单元进行词性标注;
基于所述目标语句生成短语,并根据每个所述词单元的词性得到每个短语的句式,其中,所述短语包括至少一个词单元;
根据所述短语的句式得到所述目标语句的每个子句的句式;
根据每个所述子句的句式得到所述目标语句的句式。
2.如权利要求1所述的方法,其特征在于,对目标语句的每个词单元进行词性标注,包括:
对目标语句进行分词,得到多个所述词单元;
对每个词单元进行词性标注,得到每个词单元对应的词性标签。
3.如权利要求2所述的方法,其特征在于,基于所述目标语句生成短语,包括:对所述目标语句进行短语识别,得到多个所述短语。
4.如权利要求3所述的方法,其特征在于,在所述短语包括一个词单元的情况下;
根据每个所述词单元的词性得到每个短语的句式,包括:将所述短语对应的所述词单元的词性标签作为所述短语的句式;
在所述短语包括至少两个相邻的词单元的情况下;
根据每个所述词单元的词性得到每个短语的句式,包括:将所述短语对应的所述词单元的词性标签进行组合,得到每个短语的句式。
5.如权利要求1所述的方法,其特征在于,根据所述短语的句式得到所述目标语句的每个子句的句式,包括:
根据所述短语的句式,确定所述短语的词性标签;其中,所述短语的词性标签包括名词性标签和动词性标签;
确定词性标签为名词性标签和动词性标签的短语为目标短语,并将所述目标短语的词性标签按顺序组合,得到所述子句的句式,其中,每个子句包括至少一个短语。
6.如权利要求1或5所述的方法,其特征在于,在所述目标语句包括至少两个子句的情况下;
根据每个所述子句的句式得到所述目标语句的句式,包括:根据每个所述子句的句式以及相邻子句之间的标点,生成所述目标语句的句式;
在所述目标语句包括一个子句的情况下;
根据每个所述子句的句式得到所述目标语句的句式,包括:将所述子句的句式作为所述目标语句的句式。
7.如权利要求1所述的方法,其特征在于,还包括:
将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中。
8.如权利要求7所述的方法,其特征在于,将所述短语的句式、所述子句的句式以及目标语句的句式存储于句式库中,包括:
将所述短语的句式与所述句式库中已存储的短语的句式进行对比,并在确定所述短语的句式未存储于所述句式库中的情况下,将所述短语的句式添加至所述句式库中;
将所述子句的句式与所述句式库中已存储的子句的句式进行对比,并在确定所述子句的句式未存储于所述句式库中的情况下,将所述子句的句式添加至所述句式库中;
将所述目标语句的句式与所述句式库中已存储的语句的句式进行对比,并在确定所述目标语句的句式未存储于所述句式库中的情况下,将所述目标语句的句式添加至所述句式库中。
9.一种语句分析的装置,其特征在于,包括:
词单元标注模块,被配置为对目标语句的每个词单元进行词性标注;
短语处理模块,被配置为基于所述目标语句生成短语,并根据每个所述词单元的词性得到每个短语的句式,其中,所述短语包括至少一个词单元;
子句处理模块,被配置为根据所述短语的句式得到所述目标语句的每个子句的句式;
语句处理模块,被配置为根据每个所述子句的句式得到所述目标语句的句式。
10.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。
11.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。
CN201911032193.8A 2019-10-28 2019-10-28 一种语句分析的方法及装置 Active CN110750989B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911032193.8A CN110750989B (zh) 2019-10-28 2019-10-28 一种语句分析的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911032193.8A CN110750989B (zh) 2019-10-28 2019-10-28 一种语句分析的方法及装置

Publications (2)

Publication Number Publication Date
CN110750989A true CN110750989A (zh) 2020-02-04
CN110750989B CN110750989B (zh) 2023-09-19

Family

ID=69280420

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911032193.8A Active CN110750989B (zh) 2019-10-28 2019-10-28 一种语句分析的方法及装置

Country Status (1)

Country Link
CN (1) CN110750989B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522932A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 一种信息抽取的方法、装置、设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1209599A (zh) * 1997-08-25 1999-03-03 英业达股份有限公司 汉语语法自动分析及处理方法
CN101295295A (zh) * 2008-06-13 2008-10-29 中国科学院计算技术研究所 基于线性模型的汉语词法分析方法
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
US20100057437A1 (en) * 2008-08-28 2010-03-04 Electronics And Telecommunications Research Institute Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns
US20120166942A1 (en) * 2010-12-22 2012-06-28 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
CN103493041A (zh) * 2011-11-29 2014-01-01 Sk电信有限公司 使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法
CN103678270A (zh) * 2012-08-31 2014-03-26 富士通株式会社 语义单元抽取方法和语义单元抽取设备
CN105005557A (zh) * 2015-08-06 2015-10-28 电子科技大学 一种基于依存分析的中文兼类词处理方法
US20180157634A1 (en) * 2015-07-22 2018-06-07 Huawei Technologies Co., Ltd. Syntax analysis method and apparatus
CN109388717A (zh) * 2018-07-20 2019-02-26 北京智能点科技有限公司 一种批量生成语料的方法和系统
CN109614624A (zh) * 2018-12-12 2019-04-12 广东小天才科技有限公司 一种英文语句的识别方法及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1209599A (zh) * 1997-08-25 1999-03-03 英业达股份有限公司 汉语语法自动分析及处理方法
CN101295295A (zh) * 2008-06-13 2008-10-29 中国科学院计算技术研究所 基于线性模型的汉语词法分析方法
US20100057437A1 (en) * 2008-08-28 2010-03-04 Electronics And Telecommunications Research Institute Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与系统
US20120166942A1 (en) * 2010-12-22 2012-06-28 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
CN103493041A (zh) * 2011-11-29 2014-01-01 Sk电信有限公司 使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法
CN103678270A (zh) * 2012-08-31 2014-03-26 富士通株式会社 语义单元抽取方法和语义单元抽取设备
US20180157634A1 (en) * 2015-07-22 2018-06-07 Huawei Technologies Co., Ltd. Syntax analysis method and apparatus
CN105005557A (zh) * 2015-08-06 2015-10-28 电子科技大学 一种基于依存分析的中文兼类词处理方法
CN109388717A (zh) * 2018-07-20 2019-02-26 北京智能点科技有限公司 一种批量生成语料的方法和系统
CN109614624A (zh) * 2018-12-12 2019-04-12 广东小天才科技有限公司 一种英文语句的识别方法及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522932A (zh) * 2020-04-23 2020-08-11 北京百度网讯科技有限公司 一种信息抽取的方法、装置、设备和存储介质
CN111522932B (zh) * 2020-04-23 2023-05-16 北京百度网讯科技有限公司 一种信息抽取的方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN110750989B (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
JP7346609B2 (ja) 自然言語理解(nlu)フレームワークを使用して意味探索を実行するシステムおよび方法
US11681877B2 (en) Systems and method for vocabulary management in a natural learning framework
CA2484410C (en) System for identifying paraphrases using machine translation techniques
US11520992B2 (en) Hybrid learning system for natural language understanding
WO2018000272A1 (zh) 一种语料生成装置和方法
KR20190113965A (ko) 인간의 개입 없이 특허 명세서가 작성되도록 인간이 제공한 특허 청구항에 기초하여 특허 명세서를 작성하기 위해 기계 학습 및 규칙 기반 알고리즘을 사용하기 위한 시스템 및 방법
US20210004441A1 (en) Deriving multiple meaning representations for an utterance in a natural language understanding (nlu) framework
CN110347802B (zh) 一种文本分析方法及装置
CN111310440A (zh) 文本的纠错方法、装置和系统
US20220229994A1 (en) Operational modeling and optimization system for a natural language understanding (nlu) framework
US20220245353A1 (en) System and method for entity labeling in a natural language understanding (nlu) framework
US20220238103A1 (en) Domain-aware vector encoding (dave) system for a natural language understanding (nlu) framework
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN110555440A (zh) 一种事件抽取方法及装置
US20210319481A1 (en) System and method for summerization of customer interaction
CN110309513B (zh) 一种文本依存分析的方法和装置
CN114416926A (zh) 关键词匹配方法、装置、计算设备及计算机可读存储介质
Gang et al. Chinese intelligent chat robot based on the AIML language
CN110750989B (zh) 一种语句分析的方法及装置
US20230061773A1 (en) Automated systems and methods for generating technical questions from technical documents
US20220229987A1 (en) System and method for repository-aware natural language understanding (nlu) using a lookup source framework
US20220229990A1 (en) System and method for lookup source segmentation scoring in a natural language understanding (nlu) framework
US20220245352A1 (en) Ensemble scoring system for a natural language understanding (nlu) framework
CN113537263A (zh) 二分类模型的训练方法及装置、实体链接方法及装置
CN112800202A (zh) 文档处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant