CN112115715A - 自然语言文本处理方法、装置、存储介质和电子设备 - Google Patents

自然语言文本处理方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN112115715A
CN112115715A CN202010923250.8A CN202010923250A CN112115715A CN 112115715 A CN112115715 A CN 112115715A CN 202010923250 A CN202010923250 A CN 202010923250A CN 112115715 A CN112115715 A CN 112115715A
Authority
CN
China
Prior art keywords
target
word
vector
text
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010923250.8A
Other languages
English (en)
Inventor
冯浩
刘纯一
王鹏
王征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202010923250.8A priority Critical patent/CN112115715A/zh
Publication of CN112115715A publication Critical patent/CN112115715A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种自然语言文本处理方法、装置、存储介质和电子设备。本发明实施例在获取目标文本中各目标词语对应的目标词向量后,根据目标词向量确定各目标词语与预定词表中的多个词语的相似度,从而根据各目标词语与预定词表中的多个词语的相似度确定目标文本的文本向量。本发明实施例的方法根据词语间的相关性确定目标文本的文本向量,提升了文本向量对于目标文本实际含义表征的准确性。

Description

自然语言文本处理方法、装置、存储介质和电子设备
技术领域
本发明涉及计算机技术领域,具体涉及一种自然语言文本处理方法、装置、存储介质和电子设备。
背景技术
随着计算机技术领域的不断发展,越来越多的工作由计算机完成。在计算机完成工作的过程中,通常需要进行人机交互,因此计算机需要进行自然语言理解(NaturalLanguage Understanding,NLU)。但有时用户发送的文本较为简短,使得文本向量无法较好地表征文本的实际含义,导致计算机无法根据文本向量对文本进行准确的意图识别。
发明内容
有鉴于此,本发明实施例的目的在于提供一种自然语言文本处理方法、装置、存储介质和电子设备,用于根据词语间的相关性确定目标文本的文本向量,提升文本向量对于目标文本实际含义表征的准确性。
根据本发明实施例的第一方面,提供一种自然语言文本处理方法,所述方法包括:
获取目标文本中各目标词语对应的目标词向量;
根据所述目标词向量确定所述目标词语与多个非目标词语的相似度,所述非目标词语为预定词表中的词语,所述预定词表包括所述目标词语;
根据各所述相似度确定所述目标文本的文本向量。
根据本发明实施例的第二方面,提供一种自然语言文本处理装置,所述装置包括:
词向量获取单元,用于获取目标文本中各目标词语对应的目标词向量;
相似度获取单元,用于根据所述目标词向量确定所述目标词语与多个非目标词语的相似度,所述非目标词语为预定词表中的词语,所述预定词表包括所述目标词语;
文本向量确定单元,用于根据各所述相似度确定所述目标文本的文本向量。
根据本发明实施例的第三方面,提供一种计算机可读存储介质,其上存储计算机程序指令,其中,所述计算机程序指令在被处理器执行时实现如第一方面所述的方法。
根据本发明实施例的第四方面,提供一种电子设备,包括存储器和处理器,其中,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面所述的方法。
本发明实施例在获取目标文本中各目标词语对应的目标词向量后,根据目标词向量确定各目标词语与预定词表中的多个词语的相似度,从而根据各目标词语与预定词表中的多个词语的相似度确定目标文本的文本向量。本发明实施例的方法根据词语间的相关性确定目标文本的文本向量,提升了文本向量对于目标文本实际含义表征的准确性。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明第一实施例的自然语言文本处理方法的流程图;
图2是本发明第一实施例的目标词语与候选词语的相似度的示意图;
图3是本发明第二实施例的自燃语言文本处理装置的示意图;
图4是本发明第三实施例的电子设备的示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。为了避免混淆本发明的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。
此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。
除非上下文明确要求,否则在说明书的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在人机交互的过程中,用户发送的文本有时较为简短,使得文本向量无法较好地表征文本的实际含义。例如,用户发送的文本为“分怎么少了”,文本表征的实际含义为“服务分为什么降低了”,而由于用户发送的文本比较简短,因此计算机(也即,服务器)通常无法正确识别文本的实际含义,也无法根据文本向量对文本进行准确的意图识别,从而无法给出用户正确的解答。
图1是本发明第一实施例的自然语言文本处理方法的流程图。如图1所示,本实施例的方法包括如下步骤:
步骤S100,获取目标文本中各目标词语对应的目标词向量。
在现有的人机交互的过程中,用户通常可以以语音的形式与服务器进行人机交互,因此在本实施例中,服务器获取到的目标文本可以为对目标用户发送的目标语音序列进行语音识别获得的文本,也可以为用户通过手动输入的方式发送的文本,根据应用场景的不同,目标文本还可以为任一文本,本实施例不做具体限定。
在接收到目标语音序列时,服务器可以通过各种现有的方式对目标语音序列进行语音识别,例如通过《崔天宇.基于HMM的语音识别系统的研究与实现.吉林大学.2016年硕士学位论文》中记载的语音识别系统识别获取目标文本,本实施例不做具体限定。
在获取目标文本后,服务器可以采用各种的分词方式对目标文本进行分词处理,得到目标文本对应的多个目标词语,然后基于包括各目标词语的预定词表获取各目标词语对应的目标词向量。可选地,服务器可以将各目标词语基于预定词表获取的one-hot向量作为各目标词语的目标词向量,也可以将各目标词语基于预定词表且通过词嵌入的方式获取目标词语的词嵌入向量作为各目标词语的目标词向量,还可以通过其他现有的方式获取各目标词语的目标词向量,本实施例不做具体限定。
例如,服务器在将任一目标词语基于预定词表获取的one-hot向量作为该目标词语的目标词向量时,服务器可以按照预定词表的词语顺序将该目标词语对应的元素确定为1,并将预定词表中各非目标词语对应的元素确定为0,从而确定该目标词语的one-hot向量。也就是说,目标词语为预定词表中的第i个词语,则目标词语的one-hot向量中只有第i个元素为1,其余元素均为0。
词嵌入是一种将目标词语映射为预定长度的向量的方式,映射得到的词嵌入向量可以用于表示目标词语的上下文(context)出现在对应位置的概率。上下文也即目标词语在目标文本中的语境,例如,目标文本为“分怎么少了”,则对于目标词语“怎么”而言,上下文为“分”和“少了”。可选地,服务器可以通过CBOW(Continues Bag Of Words,连续词袋模型)或者skip-gram模型确定各目标词语的词嵌入向量。
容易理解,各目标词语的目标词向量可以通过上述方式预先确定,并以key-value(键值对)的形式进行存储,也就是说,将各词语作为索引(也即,键),将对应的词向量作为值。由此,在本步骤中,服务器以各目标词语为索引就可以直接查找到对应的目标词向量。
步骤S200,根据目标词向量确定目标词语与多个非目标词语的相似度。
在本步骤中,服务器可以获取预定词表中各非目标词语的相似度,然后分别计算各目标词语的目标词向量与各非目标词语的非目标词向量的相似度。可选地,服务器可以通过各种现有的方式表征目标词语与非目标词语之间的相似度,例如,通过余弦相似度、欧式距离、曼哈顿距离等,本实施例不做具体限定。
容易理解,在本步骤中,服务器同样可以通过步骤S200中的方式预先确定各非目标词语的非目标词向量,且预定词表中包括目标词语,因此各目标词语的目标词向量同样作为非目标词向量进行相似度计算。
例如,目标文本包括目标词语:词语w1、词语w2和词语w3,预定词表中包括非目标词语:词语w1、词语w2、词语w3、词表w4和词表w5。服务器在计算词语w1与非目标词语的相似度时,可以分别计算词语w1与词语w1的相似度、词语w1与词语w2的相似度、词语w1与词语w3的相似度、词语w1与词语w4的相似度和词语w1与词语w5的相似度。
步骤S300,根据各相似度确定目标文本的文本向量。
在本步骤中,服务器可以根据各非目标词语的相似度确定各非目标词语对应的元素,然后根据各非目标词语对应的元素确定目标文本的文本向量。由此,目标文本的文本向量可以通过与各目标词语相似的非目标词语来表示,且相似度越高的非目标词语对应的元素越大,有效增强了文本向量对于目标文本的表征能力,从而使得服务器可以在后续根据文本向量进行更为准确的意图识别。容易理解,在本步骤中,非目标词语同样包括目标文本中的目标词语。
具体地,对于各目标词语,服务器可以将该目标词语对应的、相似度满足预定相似度条件的非目标词语确定为候选词语。在本实施例中,预定相似度条件可以为与目标词语的相似度排序在最大的前n(n为大于等于1的预定整数)位、与目标词语的相似度大于预定阈值或者与目标词语的相似度大于预定阈值且排序在最大的前n位等,本实施例不做具体限定。容易理解,在本实施例中,各目标词语对应的预定相似度条件相同,但是也可以不同。
例如,目标文本包括m个目标词语,在预定相似度条件为与目标词语的相似度大于预定阈值且排序在最大的前n位时,对于每个目标词语,服务器均可以确定n个对应的候选词语,因此对于目标文本,服务器可以获取到n×m个候选词语。
在确定候选词语后,服务器可以根据各候选词语的相似度确定各候选词语对应的元素,并将非候选词语的非目标词语对应的元素确定为0。
在一种可能的情况中,由于目标词语可能具有一定的相似性,不同的目标词语可能对应相同的候选词语,也就是说,部分候选词语可能对应于多个相似度。服务器可以将任一候选词语对应的多个相似度中的最大值确定为该候选词语对应的元素。例如,目标文本为“司机服务分如何涨和快速提高”,其中目标词语“涨”和“提高”对应的候选词语均包括“增加”,且“涨”与“增加”的相似度为0.8,“提高”与“增加”的相似度为0.7,则服务器可以将“增加”对应的元素确定为0.7。
在另一种可能的情况中,另一部分候选词语对应于一个相似度,服务器可以直接将各候选词语对应的相似度确定为对应的元素。
图2是本发明第一实施例的目标词语与候选词语的相似度的示意图。如图2所示,目标文本为“司机未结束计费”,其中目标词语为“司机”“未”“结束”和“计费”,预定相似度条件为与目标词语的相似度排序在最大的前三位。图2所示的“第一位”为与目标词语的相似度排序在最大的第一位的候选词语,“第二位”为与目标词语的相似度排序在最大的第二位的候选词语,“第三位”为与目标词语的相似度排序在最大的第三位的候选词语。服务器在确定目标向量时,可以将“司机”“未”“结束”以及“计费”对应的元素均确定为1,将“驾驶员”和“终止”对应的元素确定为0.8,将“没有”和“计酬”对应的元素确定为0.9,将“的哥”“完结”和“收款”对应的元素确定为0.7,将“完结”对应的元素确定为0.6,并将预定词表内非上述词语的非目标词语对应的元素均确定为0。
在确定各非目标词语对应的元素后,服务器可以将各元素依照预定词表的顺序排序,确定目标向量。可选地,服务器可以直接将目标向量确定为目标文本的文本向量,也可以通过各种现有的方式对目标向量进行降维处理,从而将降维后的目标向量作为目标文本的文本向量。
仍旧以图2所示的目标词语与候选词语的相似度的示意图为例进行说明。预定表包括100个词语,其中“司机”为预定词表中的第1个词语,“驾驶员”为预定词表中的第2个词语,“的哥”为预定词表中的第3个词语,“未”为预定词表中的第4个词语,“没有”为预定词表中的第5个词语,“不”为预定词表中的第6个词语,“结束”为预定词表中的第7个词语,“终止”为预定词表中的第8个词语,“完结”为预定词表中的第9个词语,“计费”为预定词表中的第10个词语,“计酬”为预定词表中的第11个词语,“收款”为预定词表中的第12个词语,则服务器可以根据各非目标词语的元素确定目标文本的目标向量,也即(1,0.8,0.7,1,0.9,0.7,1,0.8,0.6,1,0.9,0.7,0,……,0),其中0的个数为88个。
降维处理的目的在于在保证向量的表征能力的同时降低向量的维度,从而降低后续处理过程的计算量。在目标文本为多个时,本实施例选择通过SVD(Singular ValueDecomposition,奇异值分解)的方式对目标向量进行降维处理。SVD是一种矩阵分解的方式,可以通过一个两个酉矩阵(也即,幺正矩阵、么正矩阵)与一个半正定对角矩阵的乘积来表示由多个文本向量构成的矩阵,半正定对角矩阵的对角线元素为多个文本向量构成的矩阵的奇异值,而两个酉矩阵并不需要被确定,因此服务器根据多个文本向量构成的矩阵就可以直接确定半正定对角矩阵。多个文本向量构成的矩阵M可以通过如下公式表示:
M=U∑V*
其中,矩阵M的维度为p×q阶的矩阵,p为文本向量的数量,q为预定词表中非目标词语的数量,且q通常远大于p,矩阵U为p×p阶的酉矩阵,矩阵∑为p×p阶的半正定对角矩阵,矩阵V*为矩阵V的共轭转置矩阵,且为p×q阶的酉矩阵。由此,服务器可以将每个目标文本的文本向量从q维降低为p维。
可选地,服务器也可以通过其他方式对目标向量进行降维处理,例如主成分分析(Principal Component Analysis,PCA)、局部线性嵌入(Locally linear embedding,LLE)等,本实施例不做具体限定。
在确定各目标文本的文本向量后,服务器可以根据各目标文本的文本向量进行后续处理,例如根据多个文本向量对对应的目标文本进行聚类、根据文本向量生成目标文本的摘要等。上述处理均可以采用现有的方式进行,本实施例不再赘述。
本实施例在获取目标文本中各目标词语对应的目标词向量后,根据目标词向量确定各目标词语与预定词表中的多个词语的相似度,从而根据各目标词语与预定词表中的多个词语的相似度确定目标文本的文本向量。本实施例的方法根据词语间的相关性确定目标文本的文本向量,提升了文本向量对于目标文本实际含义表征的准确性。
图3是本发明第二实施例的自燃语言文本处理装置的示意图。如图3所示,本实施例的装置包括词向量获取单元31、相似度获取单元32和文本向量确定单元33。
其中,词向量获取单元31用于获取目标文本中各目标词语对应的目标词向量。相似度获取单元32用于根据所述目标词向量确定所述目标词语与多个非目标词语的相似度,所述非目标词语为预定词表中的词语,所述预定词表包括所述目标词语。文本向量确定单元33用于根据各所述相似度确定所述目标文本的文本向量。
进一步地,所述相似度获取单元32包括词向量获取子单元和相似度确定子单元。
其中,词向量获取子单元用于获取各所述非目标词语对应的非目标词向量。相似度确定子单元用于对于各所述目标词语,计算所述目标词向量与各所述非目标词向量的相似度。
进一步地,所述文本向量确定单元33包括元素确定子单元和文本向量确定子单元。
其中,元素确定子单元用于根据各所述非目标词语的所述相似度确定各所述非目标词语对应的元素。文本向量确定子单元用于根据各所述元素确定所述文本向量。
进一步地,所述元素确定子单元包括候选词语确定模块、第一元素确定模块和第二元素确定模块。
其中,候选词语确定模块用于对于各所述目标词语,将相似度满足预定相似度条件的所述非目标词语确定为候选词语。第一元素确定模块用于响应于所述候选词语对应于多个相似度,将所述相似度中的最大值确定为对应的所述元素。第二元素确定模块用于响应于所述候选词语对应于一个相似度,将所述相似度确定为对应的所述元素。
进一步地,所述元素确定子单元还包括第三元素确定模块。
第三元素确定模块用于响应于存在多个非候选词语,将非候选词语的所述非目标词语对应的元素确定为0。
进一步地,所述文本向量确定子单元包括目标向量确定模块和降维模块。
其中,目标向量确定模块用于将各所述元素依照所述预定词表的顺序排序,确定目标向量。降维模块用于对所述目标向量进行降维处理,确定所述文本向量。
本实施例在获取目标文本中各目标词语对应的目标词向量后,根据目标词向量确定各目标词语与预定词表中的多个词语的相似度,从而根据各目标词语与预定词表中的多个词语的相似度确定目标文本的文本向量。本实施例的装置根据词语间的相关性确定目标文本的文本向量,提升了文本向量对于目标文本实际含义表征的准确性。
图4是本发明第三实施例的电子设备的示意图。图4所示的电子设备为通用数据处理装置,其包括通用的计算机硬件结构,其至少包括处理器401和存储器402。处理器401和存储器402通过总线403连接。存储器402适于存储处理器401可执行的指令或程序。处理器401可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器401通过执行存储器402所存储的命令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其他装置的控制。总线403将上述多个组件连接在一起,同时将上述组件连接到显示控制器404和显示装置以及输入/输出(I/O)装置405。输入/输出(I/O)装置405可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出(I/O)装置405通过输入/输出(I/O)控制器406与系统相连。
其中,存储器402可以存储软件组件,例如操作系统、通信模块、交互模块以及应用程序。以上所述的每个模块和应用程序都对应于完成一个或多个功能和在发明实施例中描述的方法的一组可执行程序指令。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应理解,流程图和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
同时,如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明的方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
用于执行针对本发明各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++、PHP、Python等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种自然语言文本处理方法,其特征在于,所述方法包括:
获取目标文本中各目标词语对应的目标词向量;
根据所述目标词向量确定所述目标词语与多个非目标词语的相似度,所述非目标词语为预定词表中的词语,所述预定词表包括所述目标词语;
根据各所述相似度确定所述目标文本的文本向量。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标词向量确定所述目标词语与多个非目标词语的相似度包括:
获取各所述非目标词语对应的非目标词向量;
对于各所述目标词语,计算所述目标词向量与各所述非目标词向量的相似度。
3.根据权利要求1所述的方法,其特征在于,所述根据各所述相似度确定所述目标文本的文本向量包括:
根据各所述非目标词语的所述相似度确定各所述非目标词语对应的元素;
根据各所述元素确定所述文本向量。
4.根据权利要求3所述的方法,其特征在于,所述根据各所述非目标词语的所述相似度确定各所述非目标词语对应的元素包括:
对于各所述目标词语,将相似度满足预定相似度条件的所述非目标词语确定为候选词语;
响应于所述候选词语对应于多个相似度,将所述相似度中的最大值确定为对应的所述元素;
响应于所述候选词语对应于一个相似度,将所述相似度确定为对应的所述元素。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述非目标词语的所述相似度确定各所述非目标词语对应的元素还包括:
响应于存在多个非候选词语,将非候选词语的所述非目标词语对应的元素确定为0。
6.根据权利要求3所述的方法,其特征在于,所述根据各所述元素确定所述文本向量包括:
将各所述元素依照所述预定词表的顺序排序,确定目标向量;
对所述目标向量进行降维处理,确定所述文本向量。
7.一种自然语言文本处理装置,其特征在于,所述装置包括:
词向量获取单元,用于获取目标文本中各目标词语对应的目标词向量;
相似度获取单元,用于根据所述目标词向量确定所述目标词语与多个非目标词语的相似度,所述非目标词语为预定词表中的词语,所述预定词表包括所述目标词语;
文本向量确定单元,用于根据各所述相似度确定所述目标文本的文本向量。
8.根据权利要求7所述的装置,其特征在于,所述相似度获取单元包括:
词向量获取子单元,用于获取各所述非目标词语对应的非目标词向量;
相似度确定子单元,用于对于各所述目标词语,计算所述目标词向量与各所述非目标词向量的相似度。
9.根据权利要求7所述的装置,其特征在于,所述文本向量确定单元包括:
元素确定子单元,用于根据各所述非目标词语的所述相似度确定各所述非目标词语对应的元素;
文本向量确定子单元,用于根据各所述元素确定所述文本向量。
10.根据权利要求9所述的装置,其特征在于,所述元素确定子单元包括:
候选词语确定模块,用于对于各所述目标词语,将相似度满足预定相似度条件的所述非目标词语确定为候选词语;
第一元素确定模块,用于响应于所述候选词语对应于多个相似度,将所述相似度中的最大值确定为对应的所述元素;
第二元素确定模块,用于响应于所述候选词语对应于一个相似度,将所述相似度确定为对应的所述元素。
11.根据权利要求10所述的装置,其特征在于,所述元素确定子单元还包括:
第三元素确定模块,用于响应于存在多个非候选词语,将非候选词语的所述非目标词语对应的元素确定为0。
12.根据权利要求9所述的装置,其特征在于,所述文本向量确定子单元包括:
目标向量确定模块,用于将各所述元素依照所述预定词表的顺序排序,确定目标向量;
降维模块,用于对所述目标向量进行降维处理,确定所述文本向量。
13.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
14.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。
CN202010923250.8A 2020-09-04 2020-09-04 自然语言文本处理方法、装置、存储介质和电子设备 Pending CN112115715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010923250.8A CN112115715A (zh) 2020-09-04 2020-09-04 自然语言文本处理方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010923250.8A CN112115715A (zh) 2020-09-04 2020-09-04 自然语言文本处理方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN112115715A true CN112115715A (zh) 2020-12-22

Family

ID=73801759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010923250.8A Pending CN112115715A (zh) 2020-09-04 2020-09-04 自然语言文本处理方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN112115715A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113342936A (zh) * 2021-06-08 2021-09-03 北京明略软件系统有限公司 一种构词紧密度确定方法、装置、电子设备及存储介质
WO2022181399A1 (ja) * 2021-02-25 2022-09-01 学校法人東洋大学 感情表現語句辞書を生成する方法、文における感情を分析する方法、感情表現語句辞書、プログラム、およびシステム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426354A (zh) * 2015-10-29 2016-03-23 杭州九言科技股份有限公司 一种句向量的融合方法和装置
CN105740382A (zh) * 2016-01-27 2016-07-06 中山大学 一种对短评论文本进行方面分类方法
CN108334495A (zh) * 2018-01-30 2018-07-27 国家计算机网络与信息安全管理中心 短文本相似度计算方法及系统
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022181399A1 (ja) * 2021-02-25 2022-09-01 学校法人東洋大学 感情表現語句辞書を生成する方法、文における感情を分析する方法、感情表現語句辞書、プログラム、およびシステム
CN113342936A (zh) * 2021-06-08 2021-09-03 北京明略软件系统有限公司 一种构词紧密度确定方法、装置、电子设备及存储介质
CN113342936B (zh) * 2021-06-08 2024-03-22 北京明略软件系统有限公司 一种构词紧密度确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN110162627B (zh) 数据增量方法、装置、计算机设备及存储介质
WO2019184217A1 (zh) 热点事件分类方法、装置及存储介质
CN109145294B (zh) 文本实体识别方法及装置、电子设备、存储介质
CN107729300B (zh) 文本相似度的处理方法、装置、设备和计算机存储介质
CN111382255B (zh) 用于问答处理的方法、装置、设备和介质
CN110704621A (zh) 文本处理方法、装置及存储介质和电子设备
CN111858843B (zh) 一种文本分类方法及装置
CN110688853B (zh) 序列标注方法、装置、计算机设备和存储介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN111401071A (zh) 模型的训练方法、装置、计算机设备和可读存储介质
CN111368037A (zh) 基于Bert模型的文本相似度计算方法和装置
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN112115715A (zh) 自然语言文本处理方法、装置、存储介质和电子设备
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN117195877B (zh) 一种电子病历的词向量生成方法、系统、设备及存储介质
CN110795942A (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN110929499B (zh) 文本相似度获取方法、装置、介质及电子设备
CN112487813A (zh) 命名实体识别方法及系统、电子设备及存储介质
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN116414958A (zh) 文本语料的生成方法、装置、存储介质及电子设备
CN113779202B (zh) 命名实体识别方法、装置、计算机设备和存储介质
CN114490969B (zh) 基于表格的问答方法、装置以及电子设备
CN111680514A (zh) 信息处理和模型训练方法、装置、设备及存储介质
CN112989040B (zh) 一种对话文本标注方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201222

RJ01 Rejection of invention patent application after publication