CN111597823B - 中心词提取方法、装置、设备及存储介质 - Google Patents
中心词提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111597823B CN111597823B CN202010486516.7A CN202010486516A CN111597823B CN 111597823 B CN111597823 B CN 111597823B CN 202010486516 A CN202010486516 A CN 202010486516A CN 111597823 B CN111597823 B CN 111597823B
- Authority
- CN
- China
- Prior art keywords
- word
- features
- semantic
- feature
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000000605 extraction Methods 0.000 claims abstract description 267
- 238000012545 processing Methods 0.000 claims description 44
- 230000011218 segmentation Effects 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 12
- 238000013473 artificial intelligence Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 16
- 238000005516 engineering process Methods 0.000 description 15
- 239000000284 extract Substances 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 230000001133 acceleration Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 241000282412 Homo Species 0.000 description 2
- 239000000919 ceramic Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000386 athletic effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000010409 thin film Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种中心词提取方法、装置、设备及存储介质,属于计算机技术领域。该方法包括:调用中心词提取模型,获取目标语句的语句特征及目标语句中的多个词语的词语特征,分别对语句特征及词语特征进行语义提取,得到全局语义特征及局部语义特征,分别对每个词语的局部语义特征与全局语义特征进行匹配,得到每个词语的局部语义特征与全局语义特征之间的差异特征,根据每个词语的局部语义特征与全局语义特征之间的差异特征,获取每个词语的分值,提取多个分值中最大的分值对应的词语,作为目标语句的中心词,根据分值的大小确定中心词,不限于从预设的多个词语中提取语句的中心词,提高了提取中心词的准确率。
Description
技术领域
本申请实施例涉及计算机技术领域,特别涉及一种中心词提取方法、装置、设备及存储介质。
背景技术
随着计算机技术的发展和搜索引擎的广泛应用,用户对搜索准确率的要求也越来越高。为了提高搜索准确率,在根据用户输入的语句进行搜索时可以从该语句中提取能准确表达语句含义的中心词,根据中心词进行搜索,避免根据语句进行搜索而导致搜索结果较少的问题。
相关技术中,调用中心词提取模型,从预设的多个词语中提取语句的中心词,但是如果语句的中心词不是中心词提取模型预设的词语,则调用中心词提取模型无法准确提取出语句的中心词,提取准确率较低。
发明内容
本申请实施例提供了一种中心词提取方法、装置、设备及存储介质,提高了中心词提取的准确率。所述技术方案如下:
一方面,提供了一种中心词提取方法,所述方法包括:
调用中心词提取模型的特征获取层,获取目标语句的语句特征及所述目标语句中的多个词语的词语特征;
调用所述中心词提取模型的语义特征提取层,分别对所述目标语句的语句特征及每个词语的词语特征进行语义提取,得到所述目标语句的全局语义特征及所述每个词语的局部语义特征;
调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行匹配,得到所述每个词语的局部语义特征与所述全局语义特征之间的差异特征;
调用所述中心词提取模型的输出层,根据所述每个词语的局部语义特征与所述全局语义特征之间的差异特征,获取所述每个词语的分值,所述分值与所述差异特征呈负相关关系;
提取多个分值中最大的分值对应的词语,作为所述目标语句的中心词。
另一方面,提供了一种中心词提取装置,所述装置包括:
第一特征获取模块,用于调用中心词提取模型的特征获取层,获取目标语句的语句特征及所述目标语句中的多个词语的词语特征;
语义特征提取模块,用于调用所述中心词提取模型的语义特征提取层,分别对所述目标语句的语句特征及每个词语的词语特征进行语义提取,得到所述目标语句的全局语义特征及所述每个词语的局部语义特征;
差异特征获取模块,用于调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行匹配,得到所述每个词语的局部语义特征与所述全局语义特征之间的差异特征;
分值获取模块,用于调用所述中心词提取模型的输出层,根据所述每个词语的局部语义特征与所述全局语义特征之间的差异特征,获取所述每个词语的分值,所述分值与所述差异特征呈负相关关系;
中心词提取模块,用于提取多个分值中最大的分值对应的词语,作为所述目标语句的中心词。
在一种可能实现方式中,所述语义特征提取模块,包括:
局部语义提取单元,用于调用所述语义特征提取层的词语语义提取单元,分别对所述每个词语的词语特征进行处理,得到所述每个词语的局部语义特征;
全局语义提取单元,用于调用所述语义特征提取层的语义提取单元,对所述目标语句的语句特征进行处理,得到所述目标语句的全局语义特征。
在另一种可能实现方式中,所述差异特征获取模块,还用于:
调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行相加处理,得到所述每个词语的局部语义特征与所述目标语句的全局语义特征之间的差异特征;或者,
调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行相减处理,得到所述每个词语的局部语义特征与所述目标语句的全局语义特征之间的差异特征。
在另一种可能实现方式中,所述装置还包括:
差异特征调整模块,用于调用所述中心词提取模型的每个特征提取网络,对上一层得到的差异特征进行调整,得到调整后的差异特征;
所述分值获取模块,还用于调用所述输出层,根据最后一个特征提取网络得到的差异特征,获取所述每个词语的分值。
在另一种可能实现方式中,所述特征获取模块,包括:
词语特征获取单元,用于调用所述中心词提取模型的特征提取层,按照预设映射关系,查询所述目标语句中的每个词语对应的词语特征,所述预设映射关系包括词语及对应的词语特征;
语句特征获取单元,用于将所述多个词语的词语特征按照所述多个词语在所述目标语句中的排列顺序进行组合,得到所述目标语句的语句特征。
在另一种可能实现方式中,所述装置还包括:
分词模块,用于调用所述中心词提取模型的分词层,对所述目标语句进行分词处理,得到所述目标语句包括的多个词语,所述分词层中包括多个预设词语。
在另一种可能实现方式中,所述装置还包括:
归一化模块,用于对所述多个词语对应的分值进行归一化处理,得到每个分值对应的概率,以使所述多个词语对应的概率之和为1,所述概率用于表示对应的词语为所述目标语句的中心词的概率;
所述中心词提取模块,用于提取多个概率中最大的概率对应的词语,作为所述目标语句的中心词。
在另一种可能实现方式中,所述装置还包括:
样本获取模块,用于获取样本语句及所述样本语句中的多个样本词语对应的样本概率,所述样本概率用于表示对应的样本词语为所述样本语句的中心词的概率;
预测概率获取模块,用于调用中心词提取模型,对所述样本语句进行处理,得到每个样本词语对应的预测概率;
模型训练模块,用于根据所述每个样本词语对应的样本概率及对应的预测概率,训练所述中心词提取模型。
在另一种可能实现方式中,所述模型训练模块,用于:
获取所述每个样本词语对应的样本概率与对应的预测概率的对数之间的乘积;
将多个样本词语对应的乘积之和作为所述样本语句对应的损失值;
根据所述损失值,训练所述中心词提取模型。
在另一种可能实现方式中,所述预测概率获取模块,包括:
预测分值获取单元,用于调用所述中心词提取模型,对所述样本语句进行处理,得到所述每个样本词语对应的预测分值;
预测概率获取单元,用于对所述多个样本词语对应的预测分值进行归一化处理,得到所述每个样本词语对应的预测概率,以使所述多个样本词语对应的预测概率之和为1。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如所述中心词提取方法中所执行的操作。
另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以实现如所述中心词提取方法中所执行的操作。
本申请实施例提供的方法、装置、设备及存储介质,调用中心词提取模型的特征获取层,获取目标语句的语句特征及目标语句中的多个词语的词语特征,调用语义特征提取层,分别对目标语句的语句特征及每个词语的词语特征进行语义提取,得到目标语句的全局语义特征及每个词语的局部语义特征,全局语义特征可以准确反映目标语句的含义,局部语义特征可以准确反映对应的词语的含义,调用语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行匹配,得到每个词语的局部语义特征与全局语义特征之间的差异特征,该差异特征可以反映每个词语的局部语义特征与全局语义特征之间的匹配度,调用输出层,根据每个词语的局部语义特征与全局语义特征之间的差异特征,获取每个词语的分值,提取多个分值中最大的分值对应的词语,作为目标语句的中心词,根据分值的大小确定中心词,可以准确地提取语义特征以确定中心词,不限于从预设的多个词语中提取语句的中心词,提高了提取中心词的准确率。
并且,本申请实施例提供的方法,可以准确识别语句中的近义词、歧义词以及品牌词等词语,准确理解语句及语句的多个词语的含义,提高了中心词提取的准确率。
并且,本申请实施例提供的方法,由于分词层中的多个预设词语及特征获取层中的预设映射关系中的词语可以在任意时间进行修改,则中心词提取模型中可以准确获取任意词语的词语特征,从而该中心词提取模型可以准确提取目标语句中的中心词,提高了中心词提取的扩展性。并且,由于网络结构的特点,改进的残差神经网络可以快速对词语特征或语句特征进行处理,提高了中心词提取的效率。
并且,本申请实施例提供的方法,在语义特征匹配层之后,设置有多个特征提取网络,该多个特征提取网络可以对差异特征进行进一步的语义提取,实现了语义特征的多层次的提取,提高了获取的语义特征的准确率,从而提高了差异特征的准确率,进一步提高了中心词的提取准确率。
并且,本申请实施例提供的方法,获取样本语句及样本语句中的多个样本词语对应的样本概率,调用中心词提取模型,对样本语句进行处理,得到每个样本词语对应的预测概率,根据每个样本词语对应的样本概率及对应的预测概率,训练中心词提取模型。本申请实施例提供了一种中心词提取模型的训练方式,该方法根据预测概率和样本概率训练中心词提取模型,提高了中心词提取模型的准确率。并且,在训练中心词提取模型的过程中,设置样本语句中的多个样本词语的样本概率,不需要考虑选取哪一个词语为负样本,避免了对负样本的选择问题,降低了模型训练的难度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种中心词提取方法的流程图;
图2是本申请实施例提供的另一种中心词提取方法的流程图;
图3是本申请实施例提供的一种语义特征提取层和语义特征匹配层的示意图;
图4是本申请实施例提供的一种中心词提取模型的示意图;
图5是本申请实施例提供的一种模型训练方法的流程图;
图6是本申请实施例提供的一种中心词提取装置的结构示意图;
图7是本申请实施例提供的另一种中心词提取装置的结构示意图;
图8是本申请实施例提供的一种终端的结构示意图;
图9是本申请实施例提供的一种服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
可以理解,本申请所使用的术语“每个”、“多个”及“任一”等,多个包括两个或两个以上,每个是指对应的多个中的每一个,任一是指对应的多个中的任意一个。举例来说,多个词语包括10个词语,而每个词语是指这10个词语中的每一个词语,任一词语是指10个词语中的任意一个词语。
为了便于理解本申请实施例提供的中心词提取方法,对本申请实施例涉及到的关键词进行解释:
中心词提取:根据语句中的多个词语,识别并提取出语句的中心词,中心词为与语句相关度最大的词语。
TF-IDF(Term Frequency–Inverse Document Frequency,词频-逆文档频率算法):TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,TF(Term Frequency,词频)表示某一词语在某一文本中出现的频率,IDF(Inverse Document Frequency,逆向文件频率)表示某一词语在多个文本中出现的频率。
NER(Named Entity Recognition,命名实体识别):NER是指识别文本中具有特定意义的实体,例如文本中的人名、地名、机构名及专有名词等词语。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
本申请实施例提供的中心词提取方法涉及人工智能的人工智能技术、自然语言处理等技术,通过下述实施例对中心词提取方法进行说明。
本申请实施例提供了一种中心词提取方法,执行主体为计算机设备。该计算机设备调用中心词提取模型,获取目标语句的语句特征及目标语句中的多个词语的词语特征,分别对目标语句的语句特征及每个词语的词语特征进行语义提取,得到目标语句的全局语义特征及每个词语的局部语义特征,分别对每个词语的局部语义特征与目标语句的全局语义特征进行匹配,得到每个词语的局部语义特征与全局语义特征之间的差异特征,根据每个词语的局部语义特征与全局语义特征之间的差异特征,获取每个词语的分值,提取多个分值中最大的分值对应的词语,作为目标语句的中心词。
在一种可能实现方式中,该计算机设备为终端,终端可以为便携式、袖珍式、手持式等多种类型的终端,如智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等。
在另一种可能实现方式中,该计算机设备为服务器,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
另外,终端和服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
本申请实施例提供的中心词提取方法可以应用于多种场景下。
例如,应用于搜索场景下。
获取用户输入的语句,采用本申请实施例提供的中心词提取方法,提取出语句的中心词,根据中心词进行搜索,避免根据语句进行搜索而导致搜索结果较少的问题。另外,该搜索场景可以为物品搜索场景或新闻搜索场景等多种搜索场景。
又例如,应用于物品推荐场景下。
获取用户的历史购买记录中的历史物品,采用本申请实施例提供的中心词提取方法,提取出历史物品对应的物品标题的中心词,根据该中心词,查询包括该中心词的物品标题对应的物品,将查询到的物品推荐给用户。
又例如,应用于物品识别场景下。
对目标物品进行扫描识别,根据扫描得到的扫描图像查询到对应的物品图像,根据查询到的物品图像确定对应的物品标题,采用本申请实施例提供的中心词提取方法,提取物品标题的中心词,从而根据中心词确定目标物品,得到目标物品的物品名称。
图1是本申请实施例提供的一种中心词提取方法的流程图。本申请实施例的执行主体为计算机设备,参见图1,该方法包括:
101、计算机设备调用中心词提取模型的特征获取层,获取目标语句的语句特征及目标语句中的多个词语的词语特征。
本申请实施例中,计算机设备获取需要提取中心词的目标语句,调用中心词提取模型,获取目标语句中的每个词语的分值,从而根据每个词语的分值提取目标语句的中心词。本申请实施例仅是以目标语句为例进行说明,其他语句的提取中心词的方式与目标语句类似,本申请实施例不再赘述。
其中,目标语句可以为任一语句。例如,在搜索场景下,目标语句可以为用户输入的搜索语句;在物品识别场景下或物品推荐场景下,目标语句可以为物品标题;在其他的场景下,目标语句还可以为文章中的语句或者其他语句。
计算机设备可以采用任一分词方式,对目标语句进行分词,得到目标语句中的多个词语,例如,可以按照词性分词、按照预设词语分词或者按照其他方式分词,本申请实施例对此不做限制。
本申请实施例中,计算机设备为了便于后续对目标语句及目标语句中的多个词语进行处理,将目标语句及目标语句的多个词语转换为计算机设备能够识别的表现形式,计算机设备调用特征提取层,获取目标语句的语句特征和目标语句中的多个词语的词语特征。其中,语句特征的形式和词语特征的形式可以为特征序列、特征向量或者其他形式。
102、计算机设备调用中心词提取模型的语义特征提取层,分别对目标语句的语句特征及每个词语的词语特征进行语义提取,得到目标语句的全局语义特征及每个词语的局部语义特征。
本申请实施例中,语义特征提取层用于根据目标语句的语句特征得到目标语句的全局语义特征,根据词语的词语特征得到词语的局部语义特征,从而提取出能够表达语句语义或词语语义的特征。其中,目标语句的全局语义特征用于表示目标语句的含义,每个词语的局部语义特征用于表示该词语的含义,而中心词的局部语义特征为与目标语句的全局语义特征最接近的语义特征。
在一种可能实现方式中,计算机设备采用相同的语义提取方式,提取目标语句的全局语义特征和每个词语的局部语义特征。
在另一种可能实现方式中,由于目标语句和目标语句中的多个词语不同,计算机设备采用不同的语义提取方式,提取出目标语句的全局语义特征以及每个词语的局部语义特征。
另外,全局语义特征的表现形式与局部语义特征的表现形式一致,例如,全局语义特征为特征序列,则局部语义特征也为序列;全局语义特征为特征向量,则局部语义特征也为特征向量。
本申请实施例中,计算机设备获取目标语句的全局语义特征和每个词语的局部语义特征,可以准确理解每个词语的含义。例如,一个词语在不同的语句中含义不同,如果仅是根据词语的词语特征无法确定该词语在目标语句中的含义,则无法确定该词语是否是目标语句的中心词,而获取该词语的语义特征,可以确定该词语在目标语句中的语义,从而确定词语是否是目标语句的中心词。
103、计算机设备调用中心词提取模型的语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行匹配,得到每个词语的局部语义特征与全局语义特征之间的差异特征。
本申请实施例中,差异特征匹配层用于获取词语的局部语义特征与全局语义特征之间的差异特征,该差异特征用于表示目标语句与词语之间的匹配度,该差异特征表示的差异越大,则表示目标语句与词语之间的匹配度越小,该差异特征表示的差异越小,则表示目标语句与词语之间的匹配度越大。
其中,差异特征的表现形式与全局语义特征或局部语义特征的表现形式一致。
104、计算机设备调用中心词提取模型的输出层,根据每个词语的局部语义特征与全局语义特征之间的差异特征,获取每个词语的分值。
本申请实施例中,输出层用于获取每个词语的分值。其中,分值与差异特征呈负相关关系,即词语的局部语义特征与全局语义特征之间的差异越大,分值越小,该词语的含义能够反映目标语句的含义的可能性越小;局部语义特征与全局语义特征之间的差异越小,分值越大,该词语的含义能够反映目标语句的含义的可能性越大。
105、计算机设备提取多个分值中最大的分值对应的词语,作为目标语句的中心词。
本申请实施例中,计算机设备根据获取的多个分值,提取多个分值中最大的分值对应的词语,作为目标语句的中心词。
对于物品识别场景或者物品推荐场景,随着SEO(Search Engine Optimization,搜索引擎优化)的发展,物品的物品标题可以由多个词语组合而成,该物品标题中可以包括近义词,如跑步鞋、运动鞋、板鞋等;还可以包括歧义词,如支架、增高架、框架等;还可以包括品牌词。
相关技术中,采用TF-IDF方法从物品标题中提取中心词时,该方法仅是对词语进行统计,根据词语出现的频率确定是否是中心词,如果一个词语出现频率很高,但是该词语在目标语句中的含义与在其他语句中的含义不同,此时如果将该词语作为目标语句的中心词则是不准确的。并且,对于近义词、歧义词和品牌词,该TF-IDF方法无法分辨每个词语的含义,从而无法准确提取中心词。
或者采用NER方法,该方法使用的中心词提取模型仅能够从预设的多个词语中提取语句的中心词,如果语句的中心词不是预设的词语,则采用NER方法只能生硬的从预设的多个词语中提取中心词,导致提取的中心词不够准确。
本申请实施例提供的方法,调用中心词提取模型的特征获取层,获取目标语句的语句特征及目标语句中的多个词语的词语特征,调用语义特征提取层,分别对目标语句的语句特征及每个词语的词语特征进行语义提取,得到目标语句的全局语义特征及每个词语的局部语义特征,全局语义特征可以准确反映目标语句的含义,局部语义特征可以准确反映对应的词语的含义,调用语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行匹配,得到每个词语的局部语义特征与全局语义特征之间的差异特征,该差异特征可以反映每个词语的局部语义特征与全局语义特征之间的匹配度,调用输出层,根据每个词语的局部语义特征与全局语义特征之间的差异特征,获取每个词语的分值,提取多个分值中最大的分值对应的词语,作为目标语句的中心词,根据分值的大小确定中心词,可以准确地提取语义特征以确定中心词,不限于从预设的多个词语中提取语句的中心词,提高了提取中心词的准确率。
并且,本申请实施例提供的方法,可以准确识别语句中的近义词、歧义词以及品牌词等词语,准确理解语句及语句的多个词语的含义,提高了中心词提取的准确率。
图2是本申请实施例提供的另一种中心词提取方法的流程图。本申请实施例的执行主体为计算机设备,参见图2,该方法包括:
201、计算机设备调用中心词提取模型的分词层,对目标语句进行分词处理,得到目标语句包括的多个词语。
本申请实施例中,计算机设备获取待提取中心词的目标语句,将目标语句输入至中心词提取模型,调用中心词提取模型的分词层对目标语句进行分词处理,得到目标语句包括的多个词语。
其中,分词层中包括多个预设词语,计算机设备按照多个预设词语对目标语句进行分词。另外,计算机设备可以在任意时间修改该多个预设词语,在分词层中添加新的词语或者删减多个预设词语中的一个或多个词语。
在一种可能实现方式中,该分词层可以为基于概率词典的分词器,即基于Jieba的分词器。该分词器包括精确模式、全模式以及搜索引擎模式。其中,精确模式可以按照多个预设词语将目标语句拆分为多个词语,全模式可以按照多个预设词语将目标语句中可以成词的词语全部拆分,形成多个词语,搜索引擎模式在精确模式的基础上,将较长的词语进一步进行拆分。本申请实施例可以采用任一模式对目标语句进行分词处理,本申请实施例对此不做限制。
需要说明的是,本申请实施例仅是以分词层为基于概率词典的分词器为例进行说明,在另一实施例中,分词层还可以是其他类型的分词器。
在一种可能实现方式中,计算机设备得到目标语句包括的多个词语之后,确定每个词语的词语标识,该词语标识用于表示对应的词语在目标语句中的位置。
202、计算机设备调用中心词提取模型的特征获取层,获取目标语句的语句特征及目标语句中的多个词语的词语特征。
在一种可能实现方式中,计算机设备调用中心词提取模型的特征提取层,按照预设映射关系,查询目标语句中的每个词语对应的词语特征。其中,预设映射关系包括词语及对应的词语特征。
计算机设备获取每个词语的词语特征之后,将多个词语的词语特征按照多个词语在目标语句中的排列顺序进行组合,得到目标语句的语句特征。
在一种可能实现方式中,特征获取层为嵌入编码器,该嵌入编码器可以将输入的多个词语映射为对应的词语特征,并按照多个词语在目标语句中的排列顺序进行组合,得到目标语句的语句特征。其中,该嵌入编码器可以采用Word2Vector算法或者其他算法。例如,每个词语的词语特征为一个200维的特征序列,目标语句中包括n个词语,则目标语句的语句特征则为n*200维的特征序列。
需要说明的是,本申请实施例仅是以特征获取层为嵌入编码器为例进行说明,在另一实施例中,特征获取层还可以采用其他方式获取目标语句的语句特征及目标语句的每个词语的词语特征。
可选地,计算机设备可以在任意时间从预设映射关系中删减词语及对应的词语特征,也可以在任意时间在预设映射关系中添加词语及对应的词语特征。
另外,该步骤202的其他说明详见上述步骤101,在此不再赘述。
203、计算机设备调用中心词提取模型的语义特征提取层,分别对目标语句的语句特征及每个词语的词语特征进行语义提取,得到目标语句的全局语义特征及每个词语的局部语义特征。
在一种可能实现方式中,语义特征提取层包括词语语义提取单元和语句语义提取单元,计算机设备调用语义特征提取层的词语语义提取单元,分别对每个词语的词语特征进行处理,得到每个词语的局部语义特征。计算机设备调用语义特征提取层的语句语义提取单元,对目标语句的语句特征进行处理,得到目标语句的全局语义特征。其中,词语语义提取单元用于对词语的词语特征进行提取,语句语义提取单元用于对语句的语句特征进行提取。
计算机设备获取目标语句的多个词语的词语特征,将多个词语的词语特征依次输入至词语语义提取单元,依次得到每个词语的词语语义特征;或者,将多个词语的词语特征同时输入至词语语义提取单元,得到每个词语的词语语义特征。
采用词语语义提取单元获取词语的局部语义特征,采用语句语义提取单元提取目标语句的全局语义特征,根据词语与语句的特点,提取的语义特征更加准确。
在一种可能实现方式中,参见图3所示的网络结构的示意图,该网络结构是对残差卷积神经网络进行改进得到的网络结构,该网络结构包括语义特征提取层,该网络结构包括主干(trunk)通路和残差(residual)通路,其中,主干通路即词语语义提取单元,用于对每个词语的词语特征进行提取,得到每个词语的词语语义特征,残差通路即语句语义提取单元,用于对目标语句的语句特征进行提取,得到目标语句的语句语义特征。
可选地,主干通路包括两个1*1的卷积层;或者,主干通路包括一个k*k的深度卷积层301和一个1*1的卷积层302。其中,k为正整数,每个卷积层之后有对应的批归一化(BatchNormalization,BN)层,深度卷积层可以实现对网络参数的压缩。
可选地,残差通路包括一个全局平均池化层303和一个1*1的卷积层304。其中,全局平局池化层可以有效提取目标语句的语句特征的全局语义特征。
另外,该步骤203的其他说明详见上述步骤102,在此不再赘述。
204、计算机设备调用中心词提取模型的语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行匹配,得到每个词语的局部语义特征与全局语义特征之间的差异特征。
在一种可能实现方式中,计算机设备调用中心词提取模型的语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行相加处理,得到每个词语的局部语义特征与目标语句的全局语义特征之间的差异特征;或者,计算机设备调用中心词提取模型的语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行相减处理,得到每个词语的局部语义特征与目标语句的全局语义特征之间的差异特征。其中,相加处理或者相减处理均是为了将局部语义特征与全局语义特征进行匹配,以得到局部语义特征和全局语义特征之间的差异特征。
在一种可能实现方式中,基于上述步骤203中的可能实现方式,参见图3,网络结构还包括语义特征匹配层305,该语义特征匹配层之后还包括激活函数306,将语义特征匹配层得到的每个差异特征通过激活函数,得到最终输出的差异特征。其中,激活函数可以为ReLU(Rectified Linear Unit,线性整流函数)、Swish、GELU(Gaussian Error LinearUnits,高斯误差线性单元)或其他激活函数。
另外,该步骤204的其他说明详见上述步骤103,在此不再赘述。
205、计算机设备调用中心词提取模型的每个特征提取网络,对上一层得到的差异特征进行调整,得到调整后的差异特征。
本申请实施例中,中心词提取模型还包括至少一个特征提取网络,该特征提取网络用于对获取的差异特征进行调整,以得到更加准确的差异特征。其中,特征提取网络的结构与图3所示的网络结构类似。
在一种可能实现方式中,特征提取网络包括语义特征提取层和语义特征匹配层,调用特征提取网络的语义特征提取层,分别对上一层得到的每个词语的局部语义特征与全局语义特征之间的差异特征进行语义提取,得到调整后的目标语句的全局语义特征及调整后的每个词语的局部语义特征;调用特征提取网络的语义特征匹配层,分别对调整后的每个词语的局部语义特征与调整后的目标语句的全局语义特征进行匹配,得到调整后的差异特征。
可选地,由于每个词语的局部语义特征与全局语义特征之间的差异特征包括除该词语之外的其他词语的局部语义特征,则对于多个词语来说,可以从该多个词语对应的差异特征中提取出每个词语的局部语义特征,通过语义特征提取层对每个词语的局部语义特征进行进一步的提取,从而可以得到调整后的每个词语的局部语义特征。对于目标语句来说,可以对多个词语对应的差异特征进行融合可以得到目标语句的全局语义特征,通过语义特征提取层对目标语句的全局语义特征进行进一步的提取,从而可以得到调整后的目标语句的全局语义特征。
特征提取网络的语义特征提取层的结构与上述步骤203中的中心词提取模型的语义特征提取层的结构类似,提取语义特征的实施方式与上述步骤203中的实施方式类似;特征提取网络的语义特征匹配层的结构与上述步骤204中的中心词提取模型的语义特征匹配层的结构类似,匹配语义特征的实施方式与上述步骤204中的实施方式类似,在此不再赘述。
在一种可能实现方式中,中心词提取模型包括多个特征提取网络,任一个特征提取网络获取上一层得到的差异特征,对上一层得到的差异特征进行进一步的调整。对于目标语句的全局语义特征,计算机设备可以从每个词语对应的差异特征中提取该词语对应的局部语义特征,将提取出的多个词语的局部语义特征进行融合得到调整后的全局语义特征。对于每个词语的差异特征首先经过特征提取网络进行进一步的局部语义特征提取,然后采用与语义特征匹配层类似的方式,对调整后的全局语义特征及语义提取后的每个词语的差异特征,进行匹配处理,得到调整后的差异特征。
在一种可能实现方式中,参见图4所示的中心词提取模型的示意图,该中心词提取模型包括分词层401、特征获取层402、语义特征提取层403、语义特征匹配层404、两个特征提取网络405及输出层406。
本申请实施例中,在语义特征匹配层之后,设置有多个特征提取网络,该多个特征提取网络可以对差异特征进行进一步的语义提取,实现了语义特征的多层次的提取,提高了获取的语义特征的准确率,从而提高了差异特征的准确率,进一步提高了中心词的提取准确率。
需要说明的是,本申请实施例仅是以特征提取网络的网络结构与中心词提取模型的语义特征提取层和语义特征匹配层的网络结构类似为例进行说明,在另一实施例中,特征提取网络的网络结构可以为其他形式,本申请实施例对特征提取网络的网络结构不做限制。
206、计算机设备调用中心词提取模型的输出层,根据最后一个特征提取网络得到的差异特征,获取每个词语的分值。
本申请实施例中,计算机设备调用输出层,该输出层根据最后一个特征提取层得到的差异特征,获取每个词语的分值,该分值用于反映词语与目标语句之间的匹配度。其中,输出层可以为一个1*1的卷积层。
207、计算机设备对多个词语对应的分值进行归一化处理,得到每个分值对应的概率。
208、计算机设备提取多个概率中最大的概率对应的词语,作为目标语句的中心词。
归一化处理后的多个词语对应的概率之和为1,概率用于表示对应的词语为目标语句的中心词的概率,提取最大的概率对应的词语作为目标语句的中心词,词语的概率越大表示该词语为中心词的可能性越大,词语的概率越小表示该词语为中心词的可能性越小。
在一种可能实现方式中,计算机设备采用softmax函数进行归一化操作;或者,计算机设备采用加权平均或加权求和的方式对多个词语对应的分值进行归一化处理。
本申请实施例提供的方法,调用中心词提取模型的特征获取层,获取目标语句的语句特征及目标语句中的多个词语的词语特征,调用语义特征提取层,分别对目标语句的语句特征及每个词语的词语特征进行语义提取,得到目标语句的全局语义特征及每个词语的局部语义特征,全局语义特征可以准确反映目标语句的含义,局部语义特征可以准确反映对应的词语的含义,调用语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行匹配,得到每个词语的局部语义特征与全局语义特征之间的差异特征,该差异特征可以反映每个词语的局部语义特征与全局语义特征之间的匹配度,调用输出层,根据每个词语的局部语义特征与全局语义特征之间的差异特征,获取每个词语的概率,提取多个概率中最大的分值对应的词语,作为目标语句的中心词,根据概率的大小确定中心词,可以准确地提取语义特征确定中心词,提高了提取中心词的准确率。
并且,本申请实施例提供的方法,由于分词层中的多个预设词语及特征获取层中的预设映射关系中的词语可以在任意时间进行修改,则中心词提取模型中可以准确获取任意词语的词语特征,从而该中心词提取模型可以准确提取目标语句中的中心词,提高了中心词提取的扩展性。
并且,本申请实施例提供的方法,在语义特征匹配层之后,设置有多个特征提取网络,该多个特征提取网络可以对差异特征进行进一步的语义提取,实现了语义特征的多层次的提取,提高了获取的语义特征的准确率,从而提高了差异特征的准确率,进一步提高了中心词的提取准确率。
并且,本申请实施例提供的方法,由于网络结构的特点,改进的残差神经网络可以快速对词语特征或语句特征进行处理,提高了中心词提取的效率。例如,对比一个由多个词语组成的物品标题,提取该物品标题中的中心词时需要的时间不超过1ms。
在调用中心词提取模型之前,需要先对中心词提取模型进行训练,训练过程详见下述实施例。
图5是本申请实施例提供的一种模型训练方法的流程图。本申请实施例的执行主体为计算机设备,参见图5,该方法包括:
501、计算机设备获取样本语句及样本语句中的多个样本词语对应的样本概率。
其中,样本语句可以为任一语句,样本词语对应的样本概率用于表示对应的样本词语为样本语句的中心词的概率。例如,样本语句的中心词的样本概率为1,除中心词之外的其他词语的样本概率为0。
另外,采用与中心词提取模型中的分词方式一致的方式,对样本语句进行分词,得到样本语句中的多个样本词语,以避免设置的多个样本词语与调用中心词提取模型得到的多个样本词语不一致。
502、计算机设备调用中心词提取模型,对样本语句进行处理,得到每个样本词语对应的预测概率。
在一种可能实现方式中,计算机设备调用中心词提取模型,对样本语句进行处理,得到每个样本词语对应的预测分值;对多个样本词语对应的预测分值进行归一化处理,得到每个样本词语对应的预测概率,以使多个样本词语对应的预测概率之和为1。
例如,采用下述公式进行归一化处理:
其中,x是指中心词提取模型输出的预测分值,p是指归一化之后的预测概率,i表示样本词语在样本语句中的顺序,j表示样本语句中共包括j个样本词语,i、j为正整数,且i不大于j,xi是指样本语句中第i个样本词语的预测分值,pi是指样本语句中第i个样本词语的预测概率。
可选地,为样本语句中的每个样本词语设置对应的样本词语标识,以表示样本词语在样本语句中的位置。
503、计算机设备根据每个样本词语对应的样本概率及对应的预测概率,训练中心词提取模型。
在一种可能实现方式中,计算机设备获取每个样本词语对应的样本概率与对应的预测概率的对数之间的乘积;将多个样本词语对应的乘积之和作为样本语句对应的损失值;根据损失值,训练中心词提取模型。
例如,采用下述交叉熵损失确定样本语句对应的损失值:
L=ymlog(pm)+(1-ym)log(1-pm);
其中,L表示损失值,m表示中心词在样本语句中的顺序,ym为中心词的样本概率,pm为中心词的预测概率。
在一种可能实现方式中,计算机设备获取损失值之后,根据该损失值的大小调整中心词提取模型的模型参数,以使调整后的中心词提取模型得到损失值减小,直至损失值逐渐减小至最小值,完成对中心词提取模型的训练。其中,最小值为0。
需要说明的一点是,本申请实施例仅是以损失函数为交叉熵为例进行说明,在另一实施例中,还可以采用其他损失函数,确定损失值。
需要说明的另一点是,本申请实施例仅是以上述基于列表式排序的训练方式为例进行说明,在另一实施例中,计算机设备还可以采用其他的训练方式训练中心词提取模型。例如,根据每个词语的样本概率与预测概率之间的差异,调整中心词提取模型的参数,以使样本概率与预测概率之间差异逐渐减小至最小值。
本申请实施例提供的方法,获取样本语句及样本语句中的多个样本词语对应的样本概率,调用中心词提取模型,对样本语句进行处理,得到每个样本词语对应的预测概率,根据每个样本词语对应的样本概率及对应的预测概率,训练中心词提取模型。本申请实施例提供了一种中心词提取模型的训练方式,该方法根据预测概率和样本概率训练中心词提取模型,提高了中心词提取模型的准确率。
并且,本申请实施例中,在训练中心词提取模型的过程中,设置样本语句中的多个样本词语的样本概率,不需要考虑选取哪一个词语为负样本,避免了对负样本的选择问题,降低了模型训练的难度。
图6是本申请实施例提供的一种中心词提取装置的结构示意图。参见图6,该装置包括:
第一特征获取模块601,用于调用中心词提取模型的特征获取层,获取目标语句的语句特征及目标语句中的多个词语的词语特征;
语义特征提取模块602,用于调用中心词提取模型的语义特征提取层,分别对目标语句的语句特征及每个词语的词语特征进行语义提取,得到目标语句的全局语义特征及每个词语的局部语义特征;
差异特征获取模块603,用于调用中心词提取模型的语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行匹配,得到每个词语的局部语义特征与全局语义特征之间的差异特征;
分值获取模块604,用于调用中心词提取模型的输出层,根据每个词语的局部语义特征与全局语义特征之间的差异特征,获取每个词语的分值,分值与差异特征呈负相关关系;
中心词提取模块605,用于提取多个分值中最大的分值对应的词语,作为目标语句的中心词。
本申请实施例提供的装置,调用中心词提取模型的特征获取层,获取目标语句的语句特征及目标语句中的多个词语的词语特征,调用语义特征提取层,分别对目标语句的语句特征及每个词语的词语特征进行语义提取,得到目标语句的全局语义特征及每个词语的局部语义特征,全局语义特征可以准确反映目标语句的含义,局部语义特征可以准确反映对应的词语的含义,调用语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行匹配,得到每个词语的局部语义特征与全局语义特征之间的差异特征,该差异特征可以反映每个词语的局部语义特征与全局语义特征之间的匹配度,调用输出层,根据每个词语的局部语义特征与全局语义特征之间的差异特征,获取每个词语的分值,提取多个分值中最大的分值对应的词语,作为目标语句的中心词,根据分值的大小确定中心词,可以准确地提取语义特征以确定中心词,不限于从预设的多个词语中提取语句的中心词,提高了提取中心词的准确率。
在一种可能实现方式中,参见图7,语义特征提取模块602,包括:
局部语义提取单元6021,用于调用语义特征提取层的词语语义提取单元,分别对每个词语的词语特征进行处理,得到每个词语的局部语义特征;
全局语义提取单元6022,用于调用语义特征提取层的语义提取单元,对目标语句的语句特征进行处理,得到目标语句的全局语义特征。
在另一种可能实现方式中,差异特征获取模块603,用于:
调用中心词提取模型的语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行相加处理,得到每个词语的局部语义特征与目标语句的全局语义特征之间的差异特征;或者,
调用中心词提取模型的语义特征匹配层,分别对每个词语的局部语义特征与目标语句的全局语义特征进行相减处理,得到每个词语的局部语义特征与目标语句的全局语义特征之间的差异特征。
在另一种可能实现方式中,参见图7,该装置还包括:
差异特征调整模块606,用于调用中心词提取模型的每个特征提取网络,对上一层得到的差异特征进行调整,得到调整后的差异特征;
分值获取模块604,还用于调用输出层,根据最后一个特征提取网络得到的差异特征,获取每个词语的分值。
在另一种可能实现方式中,特征获取模块601,包括:
词语特征获取单元6011,用于调用中心词提取模型的特征提取层,按照预设映射关系,查询目标语句中的每个词语对应的词语特征,预设映射关系包括词语及对应的词语特征;
语句特征获取单元6012,用于将多个词语的词语特征按照多个词语在目标语句中的排列顺序进行组合,得到目标语句的语句特征。
在另一种可能实现方式中,参见图7,该装置还包括:
分词模块607,用于调用中心词提取模型的分词层,对目标语句进行分词处理,得到目标语句包括的多个词语,分词层中包括多个预设词语。
在另一种可能实现方式中,参见图7,该装置还包括:
归一化模块608,用于对多个词语对应的分值进行归一化处理,得到每个分值对应的概率,以使多个词语对应的概率之和为1,概率用于表示对应的词语为目标语句的中心词的概率;
中心词提取模块605,用于提取多个概率中最大的概率对应的词语,作为目标语句的中心词。
在另一种可能实现方式中,参见图7,该装置还包括:
样本获取模块609,用于获取样本语句及样本语句中的多个样本词语对应的样本概率,样本概率用于表示对应的样本词语为样本语句的中心词的概率;
预测概率获取模块610,用于调用中心词提取模型,对样本语句进行处理,得到每个样本词语对应的预测概率;
模型训练模块611,用于根据每个样本词语对应的样本概率及对应的预测概率,训练中心词提取模型。
在另一种可能实现方式中,参见图7,模型训练模块611,用于:
获取每个样本词语对应的样本概率与对应的预测概率的对数之间的乘积;
将多个样本词语对应的乘积之和作为样本语句对应的损失值;
根据损失值,训练中心词提取模型。
在另一种可能实现方式中,参见图7,预测概率获取模块610,包括:
预测分值获取单元6101,用于调用中心词提取模型,对样本语句进行处理,得到每个样本词语对应的预测分值;
预测概率获取单元6102,用于对多个样本词语对应的预测分值进行归一化处理,得到每个样本词语对应的预测概率,以使多个样本词语对应的预测概率之和为1。
上述所有可选技术方案,可以采用任意结合形成本申请的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的中心词提取装置在提取中心词时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的中心词提取装置与中心词提取方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图8示出了本申请一个示例性实施例提供的终端800的结构示意图。该终端800可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端800包括有:处理器801和存储器802。
处理器801可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器801可以集成有GPU(Graphics Processing Unit,图像处理的交互器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器801还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器802可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所具有以实现本申请中方法实施例提供的中心词提取方法。
在一些实施例中,终端800还可选包括有:外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地,外围设备包括:射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。
外围设备接口803可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中,处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上;在一些其他实施例中,处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路804用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路804包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路804还可以包括NFC(Near Field Communication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏805用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是显示屏时,显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时,显示屏805还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏805可以为一个,设置终端800的前面板;在另一些实施例中,显示屏805可以为至少两个,分别设置在终端800的不同表面或呈折叠设计;在再一些实施例中,显示屏805可以是柔性显示屏,设置在终端800的弯曲表面上或折叠面上。甚至,显示屏805还可以设置成非矩形的不规则图形,也即异形屏。显示屏805可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
摄像头组件806用于采集图像或视频。可选地,摄像头组件806包括前置摄像头组件和后置摄像头组件。通常,前置摄像头组件设置在终端800的前面板,后置摄像头组件设置在终端800的背面。在一些实施例中,后置摄像头组件为至少两个,分别为主摄像头组件、景深摄像头组件、广角摄像头组件、长焦摄像头组件中的任意一种,以实现主摄像头组件和景深摄像头组件融合实现背景虚化功能、主摄像头组件和广角摄像头组件融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器801进行处理,或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路807还可以包括耳机插孔。
定位组件808用于定位终端800的当前地理位置,以实现导航或LBS(LocationBased Service,基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System,全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。
电源809用于为终端800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
在一些实施例中,终端800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于:加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。
加速度传感器811可以检测以终端800建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号,控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于应用或者用户的运动数据的采集。
陀螺仪传感器812可以检测终端800的机体方向及转动角度,陀螺仪传感器812可以与加速度传感器811协同采集用户对终端800的3D动作。处理器801根据陀螺仪传感器812采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、应用控制以及惯性导航。
压力传感器813可以设置在终端800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端800的侧边框时,可以检测用户对终端800的握持信号,由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时,由处理器801根据用户对显示屏805的压力操作,实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
指纹传感器814用于采集用户的指纹,由处理器801根据指纹传感器1414采集到的指纹识别用户的身份,或者,由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时,由处理器801授权该用户具有相关的敏感操作,该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置终端800的正面、背面或侧面。当终端800上设置有物理按键或厂商Logo时,指纹传感器814可以与物理按键或厂商标志集成在一起。
光学传感器815用于采集环境光强度。在一个实施例中,处理器801可以根据光学传感器815采集的环境光强度,控制显示屏805的显示亮度。具体地,当环境光强度较高时,调高显示屏805的显示亮度;当环境光强度较低时,调低显示屏805的显示亮度。在另一个实施例中,处理器801还可以根据光学传感器815采集的环境光强度,动态调整摄像头组件806的拍摄参数。
接近传感器816,也称距离传感器,通常设置在终端800的前面板。接近传感器816用于采集用户与终端800的正面之间的距离。在一个实施例中,当接近传感器816检测到用户与终端800的正面之间的距离逐渐变小时,由处理器801控制显示屏805从亮屏状态切换为息屏状态;当接近传感器816检测到用户与终端800的正面之间的距离逐渐变大时,由处理器801控制显示屏805从息屏状态切换为亮屏状态。
本领域技术人员可以理解,图8中示出的结构并不构成对终端800的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
图9是本申请实施例提供的一种服务器的结构示意图,该服务器900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(Central ProcessingUnits,CPU)901和一个或一个以上的存储器902,其中,存储器902中存储有至少一条指令,该至少一条指令由处理器901加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器还可以包括其他用于实现设备功能的部件,在此不做赘述。
服务器900可以用于执行上述中心词提取方法中服务器所执行的步骤。
本申请实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器中存储有至少一条指令,该至少一条指令由处理器加载并执行,以实现上述实施例的中心词提取方法中所执行的操作。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一条指令,该至少一条指令由处理器加载并执行,以实现上述实施例的中心词提取方法中所执行的操作。
本申请实施例还提供了一种计算机程序,该计算机程序中存储有至少一条指令,该至少一条指令由处理器加载并执行,以实现上述实施例的中心词提取方法中所执行的操作。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请实施例的可选实施例,并不用以限制本申请实施例,凡在本申请实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (15)
1.一种中心词提取方法,其特征在于,所述方法包括:
调用中心词提取模型的特征获取层,获取目标语句的语句特征及所述目标语句中的多个词语的词语特征;
调用所述中心词提取模型的语义特征提取层,分别对所述目标语句的语句特征及每个词语的词语特征进行语义提取,得到所述目标语句的全局语义特征及所述每个词语的局部语义特征;
调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行匹配,得到所述每个词语的局部语义特征与所述全局语义特征之间的差异特征;
调用所述中心词提取模型的输出层,根据所述每个词语的局部语义特征与所述全局语义特征之间的差异特征,获取所述每个词语的分值,所述分值与所述差异特征呈负相关关系;
提取多个分值中最大的分值对应的词语,作为所述目标语句的中心词。
2.根据权利要求1所述的方法,其特征在于,所述调用所述中心词提取模型的语义特征提取层,分别对所述目标语句的语句特征及每个词语的词语特征进行语义提取,得到所述目标语句的全局语义特征及所述每个词语的局部语义特征,包括:
调用所述语义特征提取层的词语语义提取单元,分别对所述每个词语的词语特征进行处理,得到所述每个词语的局部语义特征;
调用所述语义特征提取层的语句语义提取单元,对所述目标语句的语句特征进行处理,得到所述目标语句的全局语义特征。
3.根据权利要求1所述的方法,其特征在于,所述调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行匹配,得到所述每个词语的局部语义特征与所述全局语义特征之间的差异特征,包括:
调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行相加处理,得到所述每个词语的局部语义特征与所述目标语句的全局语义特征之间的差异特征;或者,
调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行相减处理,得到所述每个词语的局部语义特征与所述目标语句的全局语义特征之间的差异特征。
4.根据权利要求1所述的方法,其特征在于,所述中心词提取模型还包括多个特征提取网络,所述调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行匹配,得到所述每个词语的局部语义特征与所述全局语义特征之间的差异特征之后,所述方法还包括:
调用所述中心词提取模型的每个特征提取网络,对上一层得到的差异特征进行调整,得到调整后的差异特征;
所述调用所述中心词提取模型的输出层,根据所述每个词语的局部语义特征与所述全局语义特征之间的差异特征,获取所述每个词语的分值,包括:
调用所述输出层,根据最后一个特征提取网络得到的差异特征,获取所述每个词语的分值。
5.根据权利要求1所述的方法,其特征在于,所述调用中心词提取模型的特征获取层,获取目标语句的语句特征及所述目标语句中的多个词语的词语特征,包括:
调用所述中心词提取模型的特征提取层,按照预设映射关系,查询所述目标语句中的每个词语对应的词语特征,所述预设映射关系包括词语及对应的词语特征;
将所述多个词语的词语特征按照所述多个词语在所述目标语句中的排列顺序进行组合,得到所述目标语句的语句特征。
6.根据权利要求1所述的方法,其特征在于,所述调用中心词提取模型的特征获取层,获取目标语句的语句特征及所述目标语句中的多个词语的词语特征之前,所述方法还包括:
调用所述中心词提取模型的分词层,对所述目标语句进行分词处理,得到所述目标语句包括的多个词语,所述分词层中包括多个预设词语。
7.根据权利要求1所述的方法,其特征在于,所述调用所述中心词提取模型的输出层,根据所述每个词语的局部语义特征与所述全局语义特征之间的差异特征,获取所述每个词语的分值之后,所述方法还包括:
对所述多个词语对应的分值进行归一化处理,得到每个分值对应的概率,以使所述多个词语对应的概率之和为1,所述概率用于表示对应的词语为所述目标语句的中心词的概率;
所述提取多个分值中最大的分值对应的词语,作为所述目标语句的中心词,包括:
提取多个概率中最大的概率对应的词语,作为所述目标语句的中心词。
8.根据权利要求1所述的方法,其特征在于,所述调用中心词提取模型的特征获取层,获取目标语句的语句特征及所述目标语句中的多个词语的词语特征之前,所述方法还包括:
获取样本语句及所述样本语句中的多个样本词语对应的样本概率,所述样本概率用于表示对应的样本词语为所述样本语句的中心词的概率;
调用中心词提取模型,对所述样本语句进行处理,得到每个样本词语对应的预测概率;
根据所述每个样本词语对应的样本概率及对应的预测概率,训练所述中心词提取模型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述每个样本词语对应的样本概率及对应的预测概率,训练所述中心词提取模型,包括:
获取所述每个样本词语对应的样本概率与对应的预测概率的对数之间的乘积;
将多个样本词语对应的乘积之和作为所述样本语句对应的损失值;
根据所述损失值,训练所述中心词提取模型。
10.根据权利要求8所述的方法,其特征在于,所述调用中心词提取模型,对所述样本语句进行处理,得到所述每个样本词语对应的预测概率,包括:
调用所述中心词提取模型,对所述样本语句进行处理,得到所述每个样本词语对应的预测分值;
对所述多个样本词语对应的预测分值进行归一化处理,得到所述每个样本词语对应的预测概率,以使所述多个样本词语对应的预测概率之和为1。
11.一种中心词提取装置,其特征在于,所述装置包括:
特征获取模块,用于调用中心词提取模型的特征获取层,获取目标语句的语句特征及所述目标语句中的多个词语的词语特征;
语义特征提取模块,用于调用所述中心词提取模型的语义特征提取层,分别对所述目标语句的语句特征及每个词语的词语特征进行语义提取,得到所述目标语句的全局语义特征及所述每个词语的局部语义特征;
差异特征获取模块,用于调用所述中心词提取模型的语义特征匹配层,分别对所述每个词语的局部语义特征与所述目标语句的全局语义特征进行匹配,得到所述每个词语的局部语义特征与所述全局语义特征之间的差异特征;
分值获取模块,用于调用所述中心词提取模型的输出层,根据所述每个词语的局部语义特征与所述全局语义特征之间的差异特征,获取所述每个词语的分值,所述分值与所述差异特征呈负相关关系;
中心词提取模块,用于提取多个分值中最大的分值对应的词语,作为所述目标语句的中心词。
12.根据权利要求11所述的装置,其特征在于,所述语义特征提取模块,包括:
局部语义提取单元,用于调用所述语义特征提取层的词语语义提取单元,分别对所述每个词语的词语特征进行处理,得到所述每个词语的局部语义特征;
全局语义提取单元,用于调用所述语义特征提取层的语义提取单元,对所述目标语句的语句特征进行处理,得到所述目标语句的全局语义特征。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
差异特征调整模块,用于调用所述中心词提取模型的每个特征提取网络,对上一层得到的差异特征进行调整,得到调整后的差异特征;
所述分值获取模块,还用于调用所述输出层,根据最后一个特征提取网络得到的差异特征,获取所述每个词语的分值。
14.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现如权利要求1至10任一权利要求所述的中心词提取方法中所执行的操作。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以实现如权利要求1至10任一权利要求所述的中心词提取方法中所执行的操作。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010486516.7A CN111597823B (zh) | 2020-06-01 | 2020-06-01 | 中心词提取方法、装置、设备及存储介质 |
PCT/CN2021/096762 WO2021244424A1 (zh) | 2020-06-01 | 2021-05-28 | 中心词提取方法、装置、设备及存储介质 |
US17/857,841 US20220343074A1 (en) | 2020-06-01 | 2022-07-05 | Headword extraction method and apparatus, device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010486516.7A CN111597823B (zh) | 2020-06-01 | 2020-06-01 | 中心词提取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597823A CN111597823A (zh) | 2020-08-28 |
CN111597823B true CN111597823B (zh) | 2023-08-15 |
Family
ID=72181713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010486516.7A Active CN111597823B (zh) | 2020-06-01 | 2020-06-01 | 中心词提取方法、装置、设备及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220343074A1 (zh) |
CN (1) | CN111597823B (zh) |
WO (1) | WO2021244424A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111597823B (zh) * | 2020-06-01 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 中心词提取方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633398A (zh) * | 2018-05-31 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 中心词的确认方法、搜索方法、装置和存储介质 |
CN111125424A (zh) * | 2019-12-26 | 2020-05-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 提取歌曲核心歌词的方法、装置、设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122661A1 (en) * | 2002-12-23 | 2004-06-24 | Gensym Corporation | Method, system, and computer program product for storing, managing and using knowledge expressible as, and organized in accordance with, a natural language |
CN105260359B (zh) * | 2015-10-16 | 2018-10-02 | 晶赞广告(上海)有限公司 | 语义关键词提取方法及装置 |
US10586174B2 (en) * | 2016-02-04 | 2020-03-10 | Gartner, Inc. | Methods and systems for finding and ranking entities in a domain specific system |
CN110795613B (zh) * | 2018-07-17 | 2023-04-28 | 阿里巴巴集团控股有限公司 | 商品搜索方法、装置、系统及电子设备 |
CN110008401B (zh) * | 2019-02-21 | 2021-03-09 | 北京达佳互联信息技术有限公司 | 关键词提取方法、关键词提取装置和计算机可读存储介质 |
CN111062210A (zh) * | 2019-12-25 | 2020-04-24 | 贵州大学 | 一种基于神经网络的谓语中心词识别方法 |
CN111597823B (zh) * | 2020-06-01 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 中心词提取方法、装置、设备及存储介质 |
-
2020
- 2020-06-01 CN CN202010486516.7A patent/CN111597823B/zh active Active
-
2021
- 2021-05-28 WO PCT/CN2021/096762 patent/WO2021244424A1/zh active Application Filing
-
2022
- 2022-07-05 US US17/857,841 patent/US20220343074A1/en active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110633398A (zh) * | 2018-05-31 | 2019-12-31 | 阿里巴巴集团控股有限公司 | 中心词的确认方法、搜索方法、装置和存储介质 |
CN111125424A (zh) * | 2019-12-26 | 2020-05-08 | 腾讯音乐娱乐科技(深圳)有限公司 | 提取歌曲核心歌词的方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021244424A1 (zh) | 2021-12-09 |
CN111597823A (zh) | 2020-08-28 |
US20220343074A1 (en) | 2022-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852100B (zh) | 关键词提取方法、装置、电子设备及介质 | |
CN110807325B (zh) | 谓词识别方法、装置及存储介质 | |
CN110209784B (zh) | 消息交互方法、计算机设备及存储介质 | |
CN110147533B (zh) | 编码方法、装置、设备及存储介质 | |
CN111739517B (zh) | 语音识别方法、装置、计算机设备及介质 | |
CN112269853B (zh) | 检索处理方法、装置及存储介质 | |
WO2022057435A1 (zh) | 基于搜索的问答方法及存储介质 | |
CN113516143B (zh) | 文本图像匹配方法、装置、计算机设备及存储介质 | |
CN111428522B (zh) | 翻译语料生成方法、装置、计算机设备及存储介质 | |
CN111339737B (zh) | 实体链接方法、装置、设备及存储介质 | |
CN113836946B (zh) | 训练评分模型的方法、装置、终端及存储介质 | |
CN111581958A (zh) | 对话状态确定方法、装置、计算机设备及存储介质 | |
CN113569042A (zh) | 文本信息分类方法、装置、计算机设备及存储介质 | |
CN113763931B (zh) | 波形特征提取方法、装置、计算机设备及存储介质 | |
CN112287070B (zh) | 词语的上下位关系确定方法、装置、计算机设备及介质 | |
CN114281936A (zh) | 分类方法、装置、计算机设备及存储介质 | |
CN111597823B (zh) | 中心词提取方法、装置、设备及存储介质 | |
CN116860913A (zh) | 语音交互方法、装置、设备及存储介质 | |
CN112070586B (zh) | 基于语义识别的物品推荐方法、装置、计算机设备及介质 | |
CN111428523B (zh) | 翻译语料生成方法、装置、计算机设备及存储介质 | |
CN114281937A (zh) | 嵌套实体识别模型的训练方法、嵌套实体识别方法及装置 | |
CN115221888A (zh) | 实体提及的识别方法、装置、设备及存储介质 | |
CN112988984A (zh) | 特征获取方法、装置、计算机设备及存储介质 | |
CN116431838B (zh) | 文献检索方法、装置、系统及存储介质 | |
CN113392176B (zh) | 文本相似性的确定方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40027973 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |