CN110362656A - 一种语义要素提取方法及装置 - Google Patents
一种语义要素提取方法及装置 Download PDFInfo
- Publication number
- CN110362656A CN110362656A CN201910477051.6A CN201910477051A CN110362656A CN 110362656 A CN110362656 A CN 110362656A CN 201910477051 A CN201910477051 A CN 201910477051A CN 110362656 A CN110362656 A CN 110362656A
- Authority
- CN
- China
- Prior art keywords
- verb
- semantic feature
- time
- tense
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004364 calculation method Methods 0.000 claims abstract description 24
- 239000000284 extract Substances 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 210000000078 claw Anatomy 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000011430 maximum method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000006698 induction Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000002372 labelling Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 3
- 208000008589 Obesity Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 235000020824 obesity Nutrition 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语义要素提取方法及装置,通过实时获取语音或文字信息构建动词的时态相似度计算模型快速、准确的抽取语义要素,通过将该语义要素在知识库中检索能够检索到正确的应答语句,在音译文本或者语音质量或者其他情况导致的会话消息数据质量较差的情况下,对作为“二次加工”的文本消息或者较差质量的会话消息数据,能够准确地提取出语义要素的语句以供在知识库中快速检索到准确的应答语句,具有较高的服务质量与用户体验。
Description
技术领域
本公开涉及信息处理技术领域,具体涉及一种语义要素提取方法及装置。
背景技术
智能客服机器人的类型大致分为以文字为介质和以语音智能为介质,以文字为介质的智能客服机器人普遍存在于web网页端及微信公众号端;而以语音智能为介质的智能客服机器人,则以音频流为输入介质,与机器进行理解交互,在电话终端最为广泛。针对这两种交互介质的智能交互,最终都是以标准文本的形式,进行自然语言处理及理解的,而由于“音译文本”的质量参次,对作为“二次加工”的文本消息的自然语言处理,往往是难以达到较高的服务质量的。目前,现有的智能客服技术通过利用依存分析的开放式中文实体关系抽取语义要素和基于依存分析的中文兼类词处理,这种“二次加工”的文本消息难以准确的提取出语义要素,并将该语义要素在知识库中检索能够检索到到正确的应答语句,服务质量均难以提升。
发明内容
本公开提供一种语义要素提取方法及装置,通过实时获取语音或文字信息构建动词的时态相似度计算模型快速、准确的抽取语义要素,通过将该语义要素在知识库中检索能够检索到正确的应答语句。
为了实现上述目的,根据本公开的一方面,提供一种语义要素提取方法,所述方法包括以下步骤:
步骤1,将样本中能够枚举的关键要素枚举归纳统一的关键要素标签;
步骤2,将样本中不能枚举的关键要素通过分词区分词性得到关键要素标签;
步骤3,将关键要素标签进行标签化替换为简化关键要素;
步骤4,将相应的标签替换后的样本关联到对应的意图得到意图表达语句;
步骤5,对意图表达语句进行分词处理,将语句的简化关键要素标签化替换为关键要素标签;
步骤6,进入学习引擎匹配识别获取用户意图;
步骤7,根据用户意图提取关键要素标签的数据。
进一步地,在步骤1中,将样本中能够枚举的关键要素枚举归纳统一的关键要素标签的方法为,预先建立的属性归纳模型是通过对样本进行归纳总结从而能够预测关键词所属属性的模型,可以包括字典模型、规则模型和其他模型等,其中字典模型可以包括地址字典模型(地址模型又可细分为省份字典模型和城市字典模型)、品牌字典模型等;规则模型可以包括身份证号规则模型、列车号规则模型等;其他模型可以包括酒店名模型、网吧名模型、餐厅名模型和姓名模型等。假设关键词是:“170cm”、“肥胖”、“北京”,那么通过属性归纳模型得到的与“170cm”对应的属性可以是“身高”,与“肥胖”对应的属性可以是“体型”,与“北京”对应的属性可以是“地址”和“路径”。
根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图。
具体的,意图是终端支持的查询意图,可以是通过人的属性去查找人、通过事件的属性去查找人。在查询场景下,意图的种类不多,因此可以利用该特点穷举意图并生成标签与意图的对应关系。
需要说明的是,用户输入的信息反映了用户的意图,而根据用户输入的信息获取了关键词,因此根据获得的关键词可以获取用户的意图。
步骤104、根据获得的关键词和目标意图生成查询语句。
需要说明的是,一旦确定了用户意图,根据获得的关键词和所确定的用户的意图就能生成用户期望的查询语句,查询语句就是具有查询目的,携带有查询条件的语句。
本发明实施例所提供的信息处理方法,终端根据预先建立的属性归纳模型获取与获得的关键词对应的属性;根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签;根据预先建立的标签组合与意图的对应关系,利用获得的标签获取目标意图;根据获得的关键词和目标意图生成查询语句。从本发明提供的技术方案可见,由于终端根据属性归纳模型、属性与标签的对应关系以及标签与意图的对应关系获取了关键词表明的意图,进而在无需大量训练集的参与,简单地实现了查询语句的生成。
步骤:
一、学习训练过程
1.在特定业务场景下,订立一些关键要素提取目标。如订机票业务,我们需要知道用户的起发地,目的地,航空公司等;对关键要素的可能表达,枚举归纳统一的标签,如北京、上海定位标签“location”,针对无法枚举的、具有某些,可以通过分词区分词性
2.学习样本预处理:对监督学习的样本进行标签化替换,我想订time去location的机票;
3.通过监督学习,将相应的标签替换后的样本关联到对应的意图,进行机器学习;
二、要素提取过程
4.接受用意图表达语句;
5.对表达语句分词处理,在特定的业务场景下,使用之前归纳的标签对语句进行标签化替换处理;
6.进入学习引擎匹配识别;
7.得到用户的意图,并根据该识别的意图,提取被标签化的数据
进一步地,在步骤1中,所述会话消息数据的形式包括以下至少一种:自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据,所述机器人客服包括用户客户端、知识库。
进一步地,在步骤2中,将会话消息数据进行分词的方法包括字符串匹配、机械分词、正向最大匹配、逆向最大匹配、双向最大匹配、统计分词、字标注分词任意一种。
进一步地,在步骤2中,将会话消息数据进行词性标注的方法包括viterbi算法、CLAWS 算法、VOLSUNGA算法、或基于转换的词类标注POS中任意一种方法标注出名词、动词、动词、形容词、动名词中任意组合。
进一步地,在步骤3中,构建动词的时态相似度计算模型的方法包括以下步骤:
步骤3.1,定义时态动词:
根据动词V定义一个连续时间的时态动词,εv:T×Ω→Ω,其中,T和Ω分别代表连续的时间和状态空间,T×Ω→Ω中三个元素为连续的时间、状态以及状态进化,状态进化即T 时间后的状态变化,其中,状态空间由开始、中间、结束、单个字构成,通过隐式马尔科夫模型HMM(Hidden Markov Model)从观察空间中得到,例如状态空间中的开始后面只可能接(中间or结束),不可能接(开始or结束),而中间后面也只可能接(中间or结束),不可能接(开始,单个字),其中观察空间即各会话消息数据;
根据动词V定义一个离散的时间的时态动词,εν:Z×Ω→Ω,Z为离散的时间,Z×Ω→Ω中三个元素为离散的时间、状态以及状态进化,状态进化即T时间后的状态变化。
步骤3.2,获取时态动词的相似度:
令不同时间序列的观察空间中的动词是由两个采样点(动词的起点和终点)组成的一条线段,则根据动词定义时态动词的进化的函数为εv(t)=(0,Δ0),对于随后的各个观察空间中的动词V=(0,Δx),时态动词的相似度S(V)为:
Δ0为初始的时间,单位为相对时间刻度,例如,秒、毫秒、分钟,由语速或输入速度决定,Δx为随后的第x个动词出现的时间,x取值范围为1到p,p为会话消息数据的总量,其中,k>0为常数,k=1;
步骤3.3,构建动词的时态相似度计算模型:
对于观察空间中有多个动词的训练集SV={V1,...,Vp},给出其中一个观察空间的动词 Vx=(x0,x0+x),x0为初始的动词位置,x为变化了第x次后的动词位置的偏移量,找出动词V 和训练集SV中每个元素Vi(Vi∈Sv)的相似度,首先把每个动词Vi∈Sv表示成含有两个采样点的时间序列的时态动词的进化的函数εVi=(xi0,xi0+Δi0),xi0为初始的时间,Δi0为变化了的动词出现的时间,则构建Vi和Vx间的动词的时态相似度计算模型为,其中,Sc(εVi,Vx)∈[0,1]为Vi和Vx的相似度;其中,其中,k1>0,k2>0为两个常数,例如,k1=1,k2=1,Δi0为初始的时间,Δx为随后的第x 个动词出现的时间。
其中,观察空间即各会话消息数据。
进一步地,在步骤4中,通过时态相似度计算模型提取语义要素的方法为:计算时态动词的相似度,提取相似度小于要素阈值的动词所在的语句作为语义要素,要素阈值为0.7。
本发明还提供了一种语义要素提取装置,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下装置的单元中:
会话消息接收单元,用于机器人客服接收到来自用户客户端的会话消息数据;
词性标注单元,用于将会话消息数据进行分词与词性标注出为动词的词性类别;
计算模型构建单元,用于构建动词的时态相似度计算模型;
语义要素提取单元,用于通过时态相似度计算模型提取语义要素。
本公开的有益效果为:本发明提供一种语义要素提取方法及装置,在音译文本或者语音质量或者其他情况导致的会话消息数据质量较差的情况下,对作为“二次加工”的文本消息或者较差质量的会话消息数据,能够准确地提取出语义要素的语句以供在知识库中快速检索到准确的应答语句,具有较高的服务质量与用户体验。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的元素,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为一种语义要素提取方法的流程图;
图2所示为一种语义要素提取装置图。
具体实施方式
以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
如图1所示为根据本公开的一种语义要素提取方法的流程图,下面结合图1来阐述根据本公开的实施方式的一种语义要素提取方法。
本公开提出一种语义要素提取方法,具体包括以下步骤:
步骤1,机器人客服接收到来自用户客户端的会话消息数据;
步骤2,将会话消息数据进行分词与词性标注出为动词的词性类别;
步骤3,构建动词的时态相似度计算模型;
步骤4,通过时态相似度计算模型提取语义要素。
进一步地,在步骤1中,所述会话消息数据的形式包括以下至少一种:自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据,所述机器人客服包括用户客户端、知识库。
进一步地,在步骤2中,将会话消息数据进行分词的方法包括字符串匹配、机械分词、正向最大匹配、逆向最大匹配、双向最大匹配、统计分词、字标注分词任意一种。
进一步地,在步骤2中,将会话消息数据进行词性标注的方法包括viterbi算法、CLAWS 算法、VOLSUNGA算法、或基于转换的词类标注POS中任意一种方法标注出名词、动词、动词、形容词、动名词中任意组合。
进一步地,在步骤3中,构建动词的时态相似度计算模型的方法包括以下步骤:
步骤3.1,定义时态动词:
根据动词V定义一个连续时间的时态动词,εv:T×Ω→Ω,其中,T和Ω分别代表连续的时间和状态空间,T×Ω→Ω中三个元素为连续的时间、状态以及状态进化,状态进化即T 时间后的状态变化,其中,状态空间由开始、中间、结束、单个字构成,通过隐式马尔科夫模型HMM(Hidden Markov Model)从观察空间中得到,例如状态空间中的开始后面只可能接(中间or结束),不可能接(开始or结束),而中间后面也只可能接(中间or结束),不可能接(开始,单个字),其中观察空间即各会话消息数据;
根据动词V定义一个离散的时间的时态动词,εν:Z×Ω→Ω,Z为离散的时间,Z×Ω→Ω中三个元素为离散的时间、状态以及状态进化,状态进化即T时间后的状态变化。
步骤3.2,获取时态动词的相似度:
令不同时间序列的观察空间中的动词是由两个采样点(动词的起点和终点)组成的一条线段,则根据动词定义时态动词的进化的函数为εv(t)=(0,Δ0),对于随后的各个观察空间中的动词V=(0,Δx),时态动词的相似度S(V)为:
Δ0为初始的时间,单位为相对时间刻度,例如,秒、毫秒、分钟,由语速或输入速度决定,Δx为随后的第x个动词出现的时间,x取值范围为1到p,p为会话消息数据的总量,其中,k>0为常数,k=1;
步骤3.3,构建动词的时态相似度计算模型:
对于观察空间中有多个动词的训练集SV={V1,...,Vp},给出其中一个观察空间的动词 Vx=(x0,x0+x),x0为初始的动词位置,x为变化了第x次后的动词位置的偏移量,找出动词V 和训练集SV中每个元素Vi(Vi∈Sv)的相似度,首先把每个动词Vi∈Sv表示成含有两个采样点的时间序列的时态动词的进化的函数εVi=(xi0,xi0+Δi0),xi0为初始的时间,Δi0为变化了的动词出现的时间,则构建Vi和Vx间的动词的时态相似度计算模型为,其中,Sc(εVi,Vx)∈[0,1]为Vi和Vx的相似度;其中,其中,k1>0,k2>0为两个常数,例如,k1=1,k2=1,Δi0为初始的时间,Δx为随后的第x 个动词出现的时间,一个动词具有两个采样点,即开始和结束。
其中,观察空间即各会话消息数据。
进一步地,在步骤4中,通过时态相似度计算模型提取语义要素的方法为:计算时态动词的相似度,提取相似度小于要素阈值的动词所在的语句作为语义要素,要素阈值为0.7;
例如,考虑以下具两个采样点的动词,
V1=(0,1),V2=(1,0),V3=(0,0),V4=(1,1);
观察空间中有多个动词的训练集中的一个动词为:Vx=(0.5,0.5),选择k1=1,k2=1,要素阈值为0.7,则时态动词的相似度计算如下:
由于V3和V4的相似度大于要素阈值0.7,则V3和V4所在的语句即为语义要素。
本公开的实施例提供的一种语义要素提取装置,如图2所示为本公开的一种语义要素提取装置图,该实施例的一种语义要素提取装置包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述一种语义要素提取装置实施例中的步骤。
所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下装置的单元中:
会话消息接收单元,用于机器人客服接收到来自用户客户端的会话消息数据;
词性标注单元,用于将会话消息数据进行分词与词性标注出为动词的词性类别;
计算模型构建单元,用于构建动词的时态相似度计算模型;
语义要素提取单元,用于通过时态相似度计算模型提取语义要素。
所述一种语义要素提取装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种语义要素提取装置,可运行的装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种语义要素提取装置的示例,并不构成对一种语义要素提取装置的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种语义要素提取装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种语义要素提取装置运行装置的控制中心,利用各种接口和线路连接整个一种语义要素提取装置可运行装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种语义要素提取装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等) 等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。
Claims (7)
1.一种语义要素提取方法,其特征在于,所述方法包括以下步骤:
步骤1,机器人客服接收到来自用户客户端的会话消息数据;
步骤2,将会话消息数据进行分词与词性标注出为动词的词性类别;
步骤3,构建动词的时态相似度计算模型;
步骤4,通过时态相似度计算模型提取语义要素。
2.根据权利要求1所述的一种语义要素提取方法,其特征在于,在步骤1中,所述会话消息数据的形式包括以下至少一种:自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据。
3.根据权利要求1所述的一种语义要素提取方法,其特征在于,在步骤2中,将会话消息数据进行分词的方法包括字符串匹配、机械分词、正向最大匹配、逆向最大匹配、双向最大匹配、统计分词、字标注分词任意一种。
4.根据权利要求1所述的一种语义要素提取方法,其特征在于,在步骤2中,将会话消息数据进行词性标注的方法包括viterbi算法、CLAWS算法、VOLSUNGA算法、或基于转换的词类标注POS中任意一种方法标注出名词、动词、动词、形容词、动名词中任意组合。
5.根据权利要求1所述的一种语义要素提取方法,其特征在于,在步骤3中,构建动词的时态相似度计算模型的方法包括以下步骤:
步骤3.1,定义时态动词:
根据动词V定义一个连续时间的时态动词,εv:T×Ω→Ω,其中,T和Ω分别代表连续的时间和状态空间,T×Ω→Ω中三个元素为连续的时间、状态以及状态进化,状态进化即T时间后的状态变化;
根据动词V定义一个离散的时间的时态动词,εν:Z×Ω→Ω,Z为离散的时间,Z×Ω→Ω中三个元素为离散的时间、状态以及状态进化,状态进化即T时间后的状态变化。
步骤3.2,获取时态动词的相似度:
根据动词定义时态动词的进化的函数为εv(t)=(0,Δ0),对于随后的各个观察空间中的动词V=(0,Δx),时态动词的相似度S(V)为:
Δ0为初始的时间,Δx为随后的第x个动词出现的时间,x取值范围为1到p,p为会话消息数据的总量,其中,k>0为常数,k=1;
步骤3.3,构建动词的时态相似度计算模型:
对于观察空间中有多个动词的训练集SV={V1,...,Vp},给出其中一个观察空间的动词Vx=(x0,x0+x),x0为初始的动词位置,x为变化了第x次后的动词位置的偏移量,找出动词V和训练集SV中每个元素Vi(Vi∈Sv)的相似度,首先把每个动词Vi∈Sv表示成含有两个采样点的时间序列的时态动词的进化的函数εVi=(xi0,xi0+Δi0),xi0为初始的时间,Δi0为变化了的动词出现的时间,则构建Vi和Vx间的动词的时态相似度计算模型为,其中,Sc(εVi,Vx)∈[0,1]为Vi和Vx的相似度;其中,其中,k1>0,k2>0为两个常数,例如,k1=1,k2=1,Δi0为初始的时间,Δx为随后的第x个动词出现的时间。
6.根据权利要求1所述的一种语义要素提取方法,其特征在于,在步骤4中,通过时态相似度计算模型提取语义要素的方法为:计算时态动词的相似度,提取相似度小于要素阈值的动词所在的语句作为语义要素。
7.一种语义要素提取装置,其特征在于,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序运行在以下装置的单元中:
会话消息接收单元,用于机器人客服接收到来自用户客户端的会话消息数据;
词性标注单元,用于将会话消息数据进行分词与词性标注出为动词的词性类别;
计算模型构建单元,用于构建动词的时态相似度计算模型;
语义要素提取单元,用于通过时态相似度计算模型提取语义要素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477051.6A CN110362656A (zh) | 2019-06-03 | 2019-06-03 | 一种语义要素提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910477051.6A CN110362656A (zh) | 2019-06-03 | 2019-06-03 | 一种语义要素提取方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110362656A true CN110362656A (zh) | 2019-10-22 |
Family
ID=68215457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910477051.6A Pending CN110362656A (zh) | 2019-06-03 | 2019-06-03 | 一种语义要素提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110362656A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694931A (zh) * | 2020-06-11 | 2020-09-22 | 北京百度网讯科技有限公司 | 要素获取方法及装置 |
CN116260909A (zh) * | 2023-03-08 | 2023-06-13 | 深圳方思鼎云科技有限公司 | 一种呼叫系统的语音应用控制方法及呼叫系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080275694A1 (en) * | 2007-05-04 | 2008-11-06 | Expert System S.P.A. | Method and system for automatically extracting relations between concepts included in text |
US20080319735A1 (en) * | 2007-06-22 | 2008-12-25 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
CN101957812A (zh) * | 2010-09-21 | 2011-01-26 | 上海大学 | 基于事件本体的动词语义信息提取方法 |
CN103984771A (zh) * | 2014-06-04 | 2014-08-13 | 武汉大学 | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 |
CN105741831A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于语法分析的口语评测方法和系统 |
CN107066535A (zh) * | 2017-03-03 | 2017-08-18 | 中国人民解放军海军大连舰艇学院 | 一种基于时态和关键词查询的检索方法和系统 |
-
2019
- 2019-06-03 CN CN201910477051.6A patent/CN110362656A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080275694A1 (en) * | 2007-05-04 | 2008-11-06 | Expert System S.P.A. | Method and system for automatically extracting relations between concepts included in text |
US20080319735A1 (en) * | 2007-06-22 | 2008-12-25 | International Business Machines Corporation | Systems and methods for automatic semantic role labeling of high morphological text for natural language processing applications |
CN101957812A (zh) * | 2010-09-21 | 2011-01-26 | 上海大学 | 基于事件本体的动词语义信息提取方法 |
CN103984771A (zh) * | 2014-06-04 | 2014-08-13 | 武汉大学 | 一种英文微博中地理兴趣点抽取和感知其时间趋势的方法 |
CN105741831A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于语法分析的口语评测方法和系统 |
CN107066535A (zh) * | 2017-03-03 | 2017-08-18 | 中国人民解放军海军大连舰艇学院 | 一种基于时态和关键词查询的检索方法和系统 |
Non-Patent Citations (2)
Title |
---|
丘敬云: "基于动词相似度的特征分类方法", 《电子世界》, 15 May 2012 (2012-05-15), pages 136 - 138 * |
孙瑞山: "《智能运输系统研究与实践 2007年海峡两岸智能运输系统学术研讨会论文集》", 中国民航出版社, pages: 107 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111694931A (zh) * | 2020-06-11 | 2020-09-22 | 北京百度网讯科技有限公司 | 要素获取方法及装置 |
CN116260909A (zh) * | 2023-03-08 | 2023-06-13 | 深圳方思鼎云科技有限公司 | 一种呼叫系统的语音应用控制方法及呼叫系统 |
CN116260909B (zh) * | 2023-03-08 | 2024-03-26 | 深圳方思鼎云科技有限公司 | 一种呼叫系统的语音应用控制方法及呼叫系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106156365B (zh) | 一种知识图谱的生成方法及装置 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
CN106601237B (zh) | 交互式语音应答系统及其语音识别方法 | |
US20170185581A1 (en) | Systems and methods for suggesting emoji | |
US8140530B2 (en) | Similarity calculation device and information search device | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
CN111602147A (zh) | 基于非局部神经网络的机器学习模型 | |
CN110929125B (zh) | 搜索召回方法、装置、设备及其存储介质 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
US20170364495A1 (en) | Propagation of changes in master content to variant content | |
CN103678684A (zh) | 一种基于导航信息检索的中文分词方法 | |
CN102314440B (zh) | 利用网络维护语言模型库的方法和系统 | |
US11158349B2 (en) | Methods and systems of automatically generating video content from scripts/text | |
CN110232112A (zh) | 文章中关键词提取方法及装置 | |
CN116127020A (zh) | 生成式大语言模型训练方法以及基于模型的搜索方法 | |
JP6251562B2 (ja) | 同一意図の類似文を作成するプログラム、装置及び方法 | |
CN109992653A (zh) | 信息处理方法和处理系统 | |
CN108121697A (zh) | 一种文本改写的方法、装置、设备和计算机存储介质 | |
CN110147494A (zh) | 信息搜索方法、装置,存储介质及电子设备 | |
CN110362656A (zh) | 一种语义要素提取方法及装置 | |
CN113326702A (zh) | 语义识别方法、装置、电子设备及存储介质 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN108021619A (zh) | 一种事件描述对象推荐方法及装置 | |
CN112182321B (zh) | 一种基于地图技术的互联网信息发布搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191022 |