CN111680168A - 文本特征语义提取方法、装置、电子设备及存储介质 - Google Patents

文本特征语义提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111680168A
CN111680168A CN202010482540.3A CN202010482540A CN111680168A CN 111680168 A CN111680168 A CN 111680168A CN 202010482540 A CN202010482540 A CN 202010482540A CN 111680168 A CN111680168 A CN 111680168A
Authority
CN
China
Prior art keywords
word
text
vector
adjacent
vector set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010482540.3A
Other languages
English (en)
Other versions
CN111680168B (zh
Inventor
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202010482540.3A priority Critical patent/CN111680168B/zh
Priority claimed from CN202010482540.3A external-priority patent/CN111680168B/zh
Publication of CN111680168A publication Critical patent/CN111680168A/zh
Application granted granted Critical
Publication of CN111680168B publication Critical patent/CN111680168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,揭露了一种文本特征语义提取方法,包括:将文本集中所有句子调整为相同长度,对调整后的句子建立文本矩阵;对文本集中所有句子进行分词,得到词语集;将词语集转换为词语向量集,获取词语向量集中所有词语向量的词位置向量集;根据文本矩阵,获取词语集中所有词语的邻接词序列,对邻接词序列进行编码,生成邻接词向量集;合并词语向量集、词位置向量集以及邻接词向量集,得到目标词向量集;利用文本特征语义提取模型对目标词向量集进行编码和解码操作,得到文本特征向量序列,生成文本特征语义。本发明还提出一种文本特征语义提取装置、电子设备以及计算机可读存储介质。本发明可以实现文本特征语义的提取。

Description

文本特征语义提取方法、装置、电子设备及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本特征语义提取的方法、装置、电子设备及计算机可读存储介质。
背景技术
文本特征语义指的是可以用来表征一个文本核心思想的一句话或一个词语。所述文本特征语义可以用于文本分类领域、文本主题提取领域以及文本情感分析领域等。
目前文本特征语义提取主要是基于开源的BERT(Bidirectional EncoderRepresentations from Transformers)模型进行提取。但是通过所述BERT模型对文本进行特征语义提取存在如下弊端:只是简单的将文本中词向量、词位置向量的相加之和作为所述BERT模型的输入向量,并没有考虑到词向量之间的关联度,导致提取出的文本特征语义会有所偏差。
发明内容
本发明提供一种文本特征语义提取的方法、装置、电子设备及计算机可读存储介质,其主要目的在于解决文本特征语义提取出现偏差的现象。
为实现上述目的,本发明提供的一种文本特征语义提取方法,包括:
获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;
对所述文本集中文本的所有句子进行分词,得到词语集;
将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;
根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;
合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;
利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。
可选地,所述预设的正余弦波函数包括:
Figure BDA0002516832970000021
Figure BDA0002516832970000022
其中,PE(pos,2i)表示句子中第偶数个词语向量的位置向量,PE(pos,2i+1)表示句子中第奇数个词语向量的位置向量,pos表示词位置向量索引,i表示在句子中第i个词语向量,dmodel表示词语向量维度。
可选地,所述对所述邻接词序列进行编码,生成邻接词向量集,包括:
利用前向编码器对所述邻接词序列中的每一个词语进行前向编码,得到该词语的前向邻接词向量;
利用后向编码器对所述邻接词序列中的每一个词语进行后向编码,得到该词语的后向邻接词向量;
将所述每一个词语的所述前向邻接词向量与所述后向邻接词向量进行拼接,得到邻接词向量,根据所述邻接词向量生成所述邻接词向量集。
可选地,所述生成邻接词向量集之后,该方法还包括:
对所述邻接词向量集中每一个邻接词向量进行权重标注;
根据所述权重标注,对所述邻接词向量集进行优先级排序,根据所述优先级排序,执行与所述词语向量集和所述词位置向量集的合并。
可选地,所述对所述邻接词向量集进行权重标注包括:
根据所述邻接词向量集建立一个矩阵;
随机设置所述矩阵中每个邻接词向量的标签序列号;
根据所述标签序列号,生成所述矩阵中对应邻接词向量的权重向量序列号;
计算所述权重向量序列号对应的邻接词向量的权重。
可选地,训练所述文本特征语义模型,其中,所述训练包括:
获取训练所述文本特征语义模型的语料文本;
计算所述语料文本中每个词语的频率和逆文档频率;
将所述每个词语的频率和逆文档频率相乘,得到词语权重,根据所述词语权重,将语料文本中的词语进行优先级排序并标记ID,生成词语权重序列;
对所述语料文本中每个词语进行词性分析,统计每种词性所占比例,按照词性所占比例,对所述语料文本中每个词语进行优先级排序并标记ID,形成词性属性序列;
将每个词语的词语权重序列ID与词性属性序列进行相乘并排序,得到目标词语序列;
利用所述目标词语序列训练所述文本特征语义模型。
可选地,所述计算所述语料文本中每个词语的频率和逆文档频率,包括:
利用下述方法计算所述语料文本中每个词语的频率:
Figure BDA0002516832970000031
其中,tfi,j表示词语j在语料文本i的频率,ni,j表示词语j在语料文本i中出现的次数,∑knk表示语料文本中所有词语的数量;及
利用下述方法计算所述语料文本中每个词语的逆文档频率:
Figure BDA0002516832970000032
其中,IDFi表示词语i的逆文档频率,n表示语料文本的数量,mi包含词语i的语料文本的数量。
为了解决上述问题,本发明还提供一种文本特征语义提取装置,所述装置包括:
调整模块,用于获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;
分词模块,用于对所述文本集中文本的所有句子进行分词,得到词语集;
转换及获取模块,用于将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;
编码模块,用于根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;
合并模块,用于合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;
生成模块,用于利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个指令;及
处理器,执行所述存储器中存储的指令以实现上述所述的文本特征语义提取方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的文本特征语义提取方法。
本发明实施例首先将文本集中文本的所有句子长度调整为相同长度,根据调整后的文本的句子建立文本矩阵,并将句子中所有词语转换为词语向量集以及获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;进一步地,根据所述文本矩阵,获取词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集,通过生成的邻接词向量集可以表征出不同词向量之间的关联度;最后,合并所述词语向量集、词位置向量集以及邻接词向量集,得到目标词向量集,结合一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,生成文本特征语义。因此,本发明实施例提出的一种文本特征语义提取方法、装置、电子设备以及计算机可读存储介质可以解决文本特征语义提取出现偏差的现象。
附图说明
图1为本发明一实施例提供的文本特征语义提取方法的流程示意图;
图2为本发明图1中文本特征语义提取方法中步骤S4的详细实施流程示意图;
图3为本发明一实施例提供的文本特征语义提取装置的模块示意图;
图4为本发明一实施例提供的实现文本特征语义提取方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将整合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种文本特征语义提取的方法。参照图1所示,为本发明一实施例提供的文本特征语义提取方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,文本特征语义提取的方法包括:
S1、获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵。
在本发明的至少一个实施例中,所述文本集可以是由不同类型的文本组合得到,所述文本包括、但不限于:新闻文本、广告文本以及文学文本。
较佳地,本发明实施例以文本中的句号为索引,获取所述文本集中文本的所有句子。
进一步地,由于一个文本中不同的句子长度会有所不同,为了更好的表征出文本中词语的相邻词语信息,本发明根据预设的规则,将所述文本中所有句子的长度调整为相同长度,得到目标句子集。
所述句子长度指的是句子中词语的数量,例如,一个句子的词语数量为10,则该句子的长度为10。
较佳地,所述预设的规则包括:选取所述文本中长度最长的句子,根据所述最长句子的长度Lmax,将所述文本中剩余的所有句子进行长度补齐,即不足Lmax长度的部分用特殊符号unk代替,从而将所述文本集中文本的所有句子调整为相同长度。
为了更快速的提取出文本中特征语义,在本发明的另一实施例还包括删除所述文本中长度小于预设第一阈值的句子,可选的,所述第一阈值为3。
进一步地,本发明实施例根据所述目标句子集建立文本矩阵,通过所述文本矩阵可以反映出文本中邻接词语之间的语义信息。例如,某文本中目标句子的长度为10,目标句子的数量为7,则建立的文本矩阵为10*7。
S2、对所述文本集中文本的所有句子进行分词,得到词语集。
较佳地,本发明通过预设的匹配策略将所述文本集中文本的所有句子与预设词典中的词表进行匹配,得到所述词语集。其中,所述预设的匹配策略可以为正向最大匹配法,所述正向最大匹配法的思想为从左到右将所述文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。所述预设词典包括:停用词词典、统计字典以及前缀词典等。
其中,所述停用词词典用于删除所述文本中出现频率高,但无实际意义的词,比如,语气助词、副词、介词以及连词典等;所述统计词典用于与文本中句子的字符进行匹配;所述前缀词典用于将匹配成功的词进行切分。
例如,文本中的一个句子为“现如今的房价异常动荡”,通过所述停用词删除句子中“的”,得到句子“现如今房子异常动荡”,通过所述统计词典进行字符匹配,得到句子中“现”“如今”“房子”“异常”“动荡”为匹配成功的词语,利用所述前缀词典将匹配成功的词进行切分,得到词语为:“现”、“如今”、“房子”、“异常”以及“动荡”。
S3、将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集。
在本发明的至少一个实施例中,可以通过当前已知的word2vec或glove模型将所述词语集转换为词语向量集。
进一步地,所述预设的正余弦波函数包括:
Figure BDA0002516832970000061
Figure BDA0002516832970000062
其中,PE(pos,2i)表示句子中第偶数个词语向量的位置向量,PE(pos,2i+1)表示句子中第偶数个词语向量的位置向量,pos表示词位置向量索引,i表示在句子中第i个词语向量,dmodel表示词语向量维度。
所述词位置向量用于表示一个词语在句子中的前后位置。
S4、根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;
本发明的至少一个实施例根据所述建立的文本矩阵,以待获取邻接词语的词语为中心点,以一个词语为长度基准,选取该词语前、后、左、右、左上、左下、右上、以及右上的词语作为所述该词语的邻接词序列。
例如,以上述10*7的文本矩阵为例:
unk x01 x02 x03 x04unkunkunkunkunk
unk x11 x12 x13 x14 x15 unkunkunkunk
unk x21 x22 x23 x24 x25 x26 unkunkunk
unk x31 x32 x33 x34 x35 x36 x37 unkunk
x40 x41 x42 x43x44 x45 x46 x47 x48 unk
X50 x51 x52 x53x54 x55 x56 x57 x58 x59
unkunkunkx65 x66 x67 x68 x69 unkunk
可选的,获取x44词语的邻接词序列为:x43、x33、x34、x35、x45、x55、x54以及x53,获取x34词语的邻接词序列为:x43、x44、x45、x33、x23、x24、x25以及x35。
进一步地,本发明实施例通过文本编码器对所述邻接词序列进行编码。所述文本编码器包括前向编码器bi-LSTM和后向编码器bi-LSTM。
详细地,所述对所述邻接词序列进行编码,生成邻接词向量集,包括:
利用所述前向编码器bi-LSTM对所述邻接词序列中的每一个词语进行前向编码,得到前向邻接词向量,利用所述后向编码器bi-LSTM对所述邻接词序列中的每一个词语进行后向编码,得到后向邻接词向量,将所述前向邻接词向量与所述后向邻接词向量进行拼接,得到邻接词向量,根据所述邻接词向量生成所述邻接词向量集。
其中,所述前向编码是按照从前到后的顺序对所述邻接词序列进行前向编码,所述后向编码是按照从后到前的顺序对所述邻接词序列进行后向编码。
基于上述的实施方案,通过生成的邻接词向量集可以表征出不同词向量之间的关联度,从而可以提高后续文本特征语义提取的精确性。
进一步地,本发明实施例在生成邻接词向量集之后还包括:对所述邻接词向量集中每一个邻接词向量进行权重标注,根据所述权重标注,对所述邻接词向量集进行优先级排序,根据所述优先级排序,执行与所述词语向量集和所述词位置向量集的合并。其中,需注意的是所述邻接词向量的权重之和为1。
具体的,所述根据所述优先级排序,执行与所述词语向量集和所述词位置向量集的合并,包括:
按照优先级排序从高到底的顺序,将所述邻接词向量集与所述词语向量集和所述词位置向量集进行合并,根据所述优先级排序,可以加快与所述词语向量集和所述词位置向量集合并的速度,从而提高后续文本特征语义提取的速度。
详细地,参阅图2所示,所述对所述邻接词向量集进行权重标注包括:
S40、将所述邻接词向量集建立一个矩阵Wadj;
S41、随机设置所述矩阵中每个邻接词向量的标签序列号Y;
S42、根据所述标签序列,生成所述矩阵中对应邻接词向量的权重向量序列号We。
例如,设置所述矩阵中第一个邻接词向量的标签序列号为Y1,则对应邻接词向量的权重向量序列号We1。其中,We=[we1,we2,we3,…],Y=[Y1,Y2,Y3…],Wadj*We=Y。
S43、计算所述权重向量序列号对应的邻接词向量的权重。
较佳地,本发明实施例可以通过随机梯度下降算法计算所述权重向量序列号对应的邻接词向量的权重。
所述随机梯度下降算法包括:
We=We-αY/Wadj
其中,α表示学习率。
S5、合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集。
S6、利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。
较佳地,所述文本特征语义提取模型是基于transformer模型创建得到。所述transformer模型包括编码器(Encoder)和解码器(Decoder)。所述编码器包括:self-attention模块和全连接层模块。所述解码器包括:masked self-attention模块和输出层。
所述self-attention模块又称注意力机制模块,用于对输入的词向量进行加权,即计算出输入的词向量在文本中的权重,根据所述权重的大小可以反应出词向量在文本中的重要度。所述全连接层用于将加权后的词向量传输至解码器中。
所述masked self-attention模块用于对所述编码器传输的词向量进行解码。所述输出层用于输出解码后的词向量,得到词向量文本特征向量序列。
较佳地,本发明实施例将所述目标词向量集输入至预先训练完成的文本特征语义提取模型中,利用所述文本特征语义提取模型中的编码器对所述目标词向量进行编码,通过所述文本特征语义提取模型中的解码器对编码后所述目标词向量集进行解码,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。其中,所述文本特征向量序列指的是所述目标词向量集的输出向量。
在本发明的另一实施例中还包括训练所述文本特征语义模型,其中,所述训练包括:
获取训练所述文本特征语义模型的语料文本;计算所述语料文本中每个词语的频率和逆文档频率;将所述每个词语的频率和逆文档频率相乘,得到词语权重,根据所述词语权重,将语料文本中的词语进行优先级排序并标记ID,生成词语权重序列;对所述语料文本中每个词语进行词性分析,统计每种词性所占比例,按照词性所占比例,对所述语料文本中每个词语进行优先级排序并标记ID,形成词性属性序列;将每个词语的词语权重序列ID与词性属性序列进行相乘并排序,得到目标词语序列;利用所述目标词语序列训练所述文本特征语义模型,通过所述目标词语序列可以反应出词语在语料文本中的重要程度排序,从而提高所述文本特征语义模型的鲁棒性。
所述语料文本通过语料库进行获取,可选的,所述语料库为:国家现代汉语语料库。
可选的,利用下述方法计算所述语料文本中每个词语的频率:
Figure BDA0002516832970000091
其中,ni,j表示词j在语料文本i中出现的次数,∑knk,j表示语料文本中词语的数量。
可选的,利用下述方法计算所述语料文本中每个词语的逆文档频率:
Figure BDA0002516832970000092
其中,IDFi表示词i的逆文档频率,n表示语料文本的数量,mi包含词i的语料文本的数量。
所述逆文档频率(nverse Document Frequency,IDF)指的是一个词语普遍重要性的度量,它的大小与一个词的常见程度成反比。
所述权重用tf-IDF表示,用于表征一个词语在语料文本中的重要程度,较佳地,本发明实施例按照权重从大到小的顺序对语料文本中的词语进行优先级排序,生成词语权重序列。即权重最大的词语优先级最高,标记ID为1,其中,对于相同权重的词语标记相同ID。
本发明实施例首先将文本集中文本的所有句子长度调整为相同长度,根据调整后的文本的句子建立文本矩阵,并将句子中所有词语转换为词语向量集以及获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;进一步地,根据所述文本矩阵,获取词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集,通过生成的邻接词向量集可以表征出不同词向量之间的关联度;最后,合并所述词语向量集、词位置向量集以及邻接词向量集,得到目标词向量集,结合一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,生成文本特征语义。因此,本发明实施例提出的一种文本特征语义提取方法、装置、电子设备以及计算机可读存储介质可以解决文本特征语义提取出现偏差的现象。
如图3所示,是本发明文本特征语义提取装置的功能模块图。
本发明所述文本特征语义提取装置100可以安装于电子设备中。根据实现的功能,所述文本特征语义提取装置可以包括调整模块101、分词模块102、转换及获取模块103、编码模块104、合并模块105以及生成模块106。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述调整模块101,用于获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵。
在本发明的至少一个实施例中,所述文本集可以是由不同类型的文本组合得到,所述文本包括、但不限于:新闻文本、广告文本以及文学文本。
较佳地,本发明实施例以文本中的句号为索引,获取所述文本集中文本的所有句子。
进一步地,由于一个文本中不同的句子长度会有所不同,为了更好的表征出文本中词语的相邻词语信息,本发明根据预设的规则,将所述文本中所有句子的长度调整为相同长度,得到目标句子集。
所述句子长度指的是句子中词语的数量,例如,一个句子的词语数量为10,则该句子的长度为10。
较佳地,所述预设的规则包括:选取所述文本中长度最长的句子,根据所述最长句子的长度Lmax,将所述文本中剩余的所有句子进行长度补齐,即不足Lmax长度的部分用特殊符号unk代替,从而将所述文本集中文本的所有句子调整为相同长度。
为了更快速的提取出文本中特征语义,在本发明的另一实施例还包括删除所述文本中长度小于预设第一阈值的句子,可选的,所述第一阈值为3。
进一步地,本发明实施例根据所述目标句子集建立文本矩阵,通过所述文本矩阵可以反映出文本中邻接词语之间的语义信息。例如,某文本中目标句子的长度为10,目标句子的数量为7,则建立的文本矩阵为10*7。
所述分词模块102,用于对所述文本集中文本的所有句子进行分词,得到词语集。
较佳地,本发明通过预设的匹配策略将所述文本集中文本的所有句子与预设词典中的词表进行匹配,得到所述词语集。其中,所述预设的匹配策略可以为正向最大匹配法,所述正向最大匹配法的思想为从左到右将所述文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词。所述预设词典包括:停用词词典、统计字典以及前缀词典等。
其中,所述停用词词典用于删除所述文本中出现频率高,但无实际意义的词,比如,语气助词、副词、介词以及连词典等;所述统计词典用于与文本中句子的字符进行匹配;所述前缀词典用于将匹配成功的词进行切分。
例如,文本中的一个句子为“现如今的房价异常动荡”,通过所述停用词删除句子中“的”,得到句子“现如今房子异常动荡”,通过所述统计词典进行字符匹配,得到句子中“现”“如今”“房子”“异常”“动荡”为匹配成功的词语,利用所述前缀词典将匹配成功的词进行切分,得到词语为:“现”、“如今”、“房子”、“异常”以及“动荡”。
所述转换及获取模块103,用于将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集。
在本发明的至少一个实施例中,可以通过当前已知的word2vec或glove模型将所述词语集转换为词语向量集。
进一步地,所述预设的正余弦波函数包括:
Figure BDA0002516832970000121
Figure BDA0002516832970000122
其中,PE(pos,2i)表示句子中第偶数个词语向量的位置向量,PE(pos,2i+1)表示句子中第偶数个词语向量的位置向量,pos表示词位置向量索引,i表示在句子中第i个词语向量,dmodel表示词语向量维度。
所述词位置向量用于表示一个词语在句子中的前后位置。
所述编码模块104,用于根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集。
本发明的至少一个实施例根据所述建立的文本矩阵,以待获取邻接词语的词语为中心点,以一个词语为长度基准,选取该词语前、后、左、右、左上、左下、右上、以及右上的词语作为所述该词语的邻接词序列。
例如,以上述10*7的文本矩阵为例:
unk x01 x02 x03 x04unkunkunkunkunk
unk x11 x12 x13 x14 x15 unkunkunkunk
unk x21 x22 x23 x24 x25 x26 unkunkunk
unk x31 x32 x33 x34 x35 x36 x37 unkunk
x40 x41 x42 x43 x44 x45 x46 x47 x48 unk
X50 x51 x52 x53x54 x55 x56 x57 x58 x59
unkunkunkx65 x66 x67 x68 x69 unkunk
可选的,获取x44词语的邻接词序列为:x43、x33、x34、x35、x45、x55、x54以及x53,获取x34词语的邻接词序列为:x43、x44、x45、x33、x23、x24、x25以及x35。
进一步地,本发明实施例通过文本编码器对所述邻接词序列进行编码。所述文本编码器包括前向编码器bi-LSTM和后向编码器bi-LSTM。
详细地,所述对所述邻接词序列进行编码,生成邻接词向量集,包括:
利用所述前向编码器bi-LSTM对所述邻接词序列中的每一个词语进行前向编码,得到前向邻接词向量,利用所述后向编码器bi-LSTM对所述邻接词序列中的每一个词语进行后向编码,得到后向邻接词向量,将所述前向邻接词向量与所述后向邻接词向量进行拼接,得到邻接词向量,根据所述邻接词向量生成所述邻接词向量集。
其中,所述前向编码是按照从前到后的顺序对所述邻接词序列进行前向编码,所述后向编码是按照从后到前的顺序对所述邻接词序列进行后向编码。
基于上述的实施方案,通过生成的邻接词向量集可以表征出不同词向量之间的关联度,从而可以提高后续文本特征语义提取的精确性。
进一步地,本发明实施例在生成邻接词向量集之后还包括:对所述邻接词向量集中每一个邻接词向量进行权重标注,根据所述权重标注,对所述邻接词向量集进行优先级排序,根据所述优先级排序,执行与所述词语向量集和所述词位置向量集的合并。其中,需注意的是所述邻接词向量的权重之和为1。
具体的,所述根据所述优先级排序,执行与所述词语向量集和所述词位置向量集的合并,包括:
按照优先级排序从高到底的顺序,将所述邻接词向量集与所述词语向量集和所述词位置向量集进行合并,根据所述优先级排序,可以加快与所述词语向量集和所述词位置向量集合并的速度,从而提高后续文本特征语义提取的速度。
详细地,所述对所述邻接词向量集进行权重标注包括:
步骤I、将所述邻接词向量集建立一个矩阵Wadj;
步骤II、随机设置所述矩阵中每个邻接词向量的标签序列号Y;
步骤III、根据所述标签序列,生成所述矩阵中对应邻接词向量的权重向量序列号We。
例如,设置所述矩阵中第一个邻接词向量的标签序列号为Y1,则对应邻接词向量的权重向量序列号We1。其中,We=[we1,we2,we3,…],Y=[Y1,Y2,Y3…],Wadj*We=Y。
步骤IV、计算所述权重向量序列号对应的邻接词向量的权重。
较佳地,本发明实施例可以通过随机梯度下降算法计算所述权重向量序列号对应的邻接词向量的权重。
所述随机梯度下降算法包括:
We=We-αY/Wadj
其中,表示学习率。
所述合并模块105,用于合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集。
所述生成模块106,用于利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。
较佳地,所述文本特征语义提取模型是基于transformer模型创建得到。所述transformer模型包括编码器(Encoder)和解码器(Decoder)。所述编码器包括:self-attention模块和全连接层模块。所述解码器包括:masked self-attention模块和输出层。
所述self-attention模块又称注意力机制模块,用于对输入的词向量进行加权,即计算出输入的词向量在文本中的权重,根据所述权重的大小可以反应出词向量在文本中的重要度。所述全连接层用于将加权后的词向量传输至解码器中。
所述masked self-attention模块用于对所述编码器传输的词向量进行解码。所述输出层用于输出解码后的词向量,得到词向量文本特征向量序列。
较佳地,本发明实施例将所述目标词向量集输入至预先训练完成的文本特征语义提取模型中,利用所述文本特征语义提取模型中的编码器对所述目标词向量进行编码,通过所述文本特征语义提取模型中的解码器对编码后所述目标词向量集进行解码,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。其中,所述文本特征向量序列指的是所述目标词向量集的输出向量。
在本发明的另一实施例中还包括训练所述文本特征语义模型,其中,所述训练包括:
获取训练所述文本特征语义模型的语料文本;计算所述语料文本中每个词语的频率和逆文档频率;将所述每个词语的频率和逆文档频率相乘,得到词语权重,根据所述词语权重,将语料文本中的词语进行优先级排序并标记ID,生成词语权重序列;对所述语料文本中每个词语进行词性分析,统计每种词性所占比例,按照词性所占比例,对所述语料文本中每个词语进行优先级排序并标记ID,形成词性属性序列;将每个词语的词语权重序列ID与词性属性序列进行相乘并排序,得到目标词语序列;利用所述目标词语序列训练所述文本特征语义模型,通过所述目标词语序列可以反应出词语在语料文本中的重要程度排序,从而提高所述文本特征语义模型的鲁棒性。
所述语料文本通过语料库进行获取,可选的,所述语料库为:国家现代汉语语料库。
可选的,利用下述方法计算所述语料文本中每个词语的频率:
Figure BDA0002516832970000151
其中,ni,表示词j在语料文本i中出现的次数,∑knk,j表示语料文本中词语的数量。
可选的,利用下述方法计算所述语料文本中每个词语的逆文档频率:
Figure BDA0002516832970000152
其中,IDFi表示词i的逆文档频率,n表示语料文本的数量,mi包含词i的语料文本的数量。
所述逆文档频率(nverse Document Frequency,IDF)指的是一个词语普遍重要性的度量,它的大小与一个词的常见程度成反比。
所述权重用tf-IDF表示,用于表征一个词语在语料文本中的重要程度,较佳地,本发明实施例按照权重从大到小的顺序对语料文本中的词语进行优先级排序,生成词语权重序列。即权重最大的词语优先级最高,标记ID为1,其中,对于相同权重的词语标记相同ID。
本发明实施例首先将文本集中文本的所有句子长度调整为相同长度,根据调整后的文本的句子建立文本矩阵,并将句子中所有词语转换为词语向量集以及获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;进一步地,根据所述文本矩阵,获取词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集,通过生成的邻接词向量集可以表征出不同词向量之间的关联度;最后,合并所述词语向量集、词位置向量集以及邻接词向量集,得到目标词向量集,结合一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,生成文本特征语义。因此,本发明实施例提出的一种文本特征语义提取方法、装置、电子设备以及计算机可读存储介质可以解决文本特征语义提取出现偏差的现象。
如图4所示,是本发明实现文本特征语义提取的方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如文本特征语义提取程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如文本特征语义提取程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如文本特征语义提取程序12等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的文本特征语义提取程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;
对所述文本集中文本的所有句子进行分词,得到词语集;
将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;
根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;
合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;
利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种文本特征语义提取方法,其特征在于,所述方法包括:
获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;
对所述文本集中文本的所有句子进行分词,得到词语集;
将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;
根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;
合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;
利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。
2.如权利要求1所述的文本特征语义提取方法,其特征在于,所述预设的正余弦波函数包括:
Figure FDA0002516832960000011
Figure FDA0002516832960000012
其中,PE(pos,2i)表示句子中第偶数个词语向量的位置向量,PE(pos,2i+1)表示句子中第奇数个词语向量的位置向量,pos表示词位置向量索引,i表示在句子中第i个词语向量,dmodel表示词语向量维度。
3.如权利要求1所述的文本特征语义提取方法,其特征在于,所述对所述邻接词序列进行编码,生成邻接词向量集,包括:
利用前向编码器对所述邻接词序列中的每一个词语进行前向编码,得到该词语的前向邻接词向量;
利用后向编码器对所述邻接词序列中的每一个词语进行后向编码,得到该词语的后向邻接词向量;
将所述每一个词语的所述前向邻接词向量与所述后向邻接词向量进行拼接,得到邻接词向量,根据所述邻接词向量生成所述邻接词向量集。
4.如权利要求1所述的文本特征语义提取方法,其特征在于,所述生成邻接词向量集之后,该方法还包括:
对所述邻接词向量集中每一个邻接词向量进行权重标注;
根据所述权重标注,对所述邻接词向量集进行优先级排序,根据所述优先级排序,执行与所述词语向量集和所述词位置向量集的合并。
5.如权利要求4中所述的文本特征语义提取方法,其特征在于,所述对所述邻接词向量集进行权重标注,包括:
根据所述邻接词向量集建立一个矩阵;
随机设置所述矩阵中每个邻接词向量的标签序列号;
根据所述标签序列号,生成所述矩阵中对应邻接词向量的权重向量序列号;
计算所述权重向量序列号对应的邻接词向量的权重。
6.如权利要求1至5中任意一项所述的文本特征语义提取方法,其特征在于,该方法还包括:训练所述文本特征语义模型,其中,所述训练包括:
获取训练所述文本特征语义模型的语料文本;
计算所述语料文本中每个词语的频率和逆文档频率;
将所述每个词语的频率和逆文档频率相乘,得到词语权重,根据所述词语权重,将语料文本中的词语进行优先级排序并标记ID,生成词语权重序列;
对所述语料文本中每个词语进行词性分析,统计每种词性所占比例,按照词性所占比例,对所述语料文本中每个词语进行优先级排序并标记ID,形成词性属性序列;
将每个词语的词语权重序列ID与词性属性序列进行相乘并排序,得到目标词语序列;
利用所述目标词语序列训练所述文本特征语义模型。
7.如权利要求6所述的文本特征语义提取方法,其特征在于,所述计算所述语料文本中每个词语的频率和逆文档频率,包括:
利用下述方法计算所述语料文本中每个词语的频率:
Figure FDA0002516832960000021
其中,tfi,j表示词语j在语料文本i的频率,ni,j表示词语j在语料文本i中出现的次数,∑knk表示语料文本中所有词语的数量;及
利用下述方法计算所述语料文本中每个词语的逆文档频率:
Figure FDA0002516832960000031
其中,IDFi表示词语i的逆文档频率,n表示语料文本的数量,mi包含词语i的语料文本的数量。
8.一种文本特征语义提取装置,其特征在于,所述装置包括:
调整模块,用于获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;
分词模块,用于对所述文本集中文本的所有句子进行分词,得到词语集;
转换及获取模块,用于将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;
编码模块,用于根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;
合并模块,用于合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;
生成模块,用于利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任意一项所述的文本特征语义提取方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的文本特征语义提取方法。
CN202010482540.3A 2020-05-29 文本特征语义提取方法、装置、电子设备及存储介质 Active CN111680168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010482540.3A CN111680168B (zh) 2020-05-29 文本特征语义提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010482540.3A CN111680168B (zh) 2020-05-29 文本特征语义提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111680168A true CN111680168A (zh) 2020-09-18
CN111680168B CN111680168B (zh) 2024-06-28

Family

ID=

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347223A (zh) * 2020-11-03 2021-02-09 平安科技(深圳)有限公司 文档检索方法、设备及计算机可读存储介质
CN112667780A (zh) * 2020-12-31 2021-04-16 上海众源网络有限公司 一种评论信息的生成方法、装置、电子设备及存储介质
CN113010740A (zh) * 2021-03-09 2021-06-22 腾讯科技(深圳)有限公司 词权重的生成方法、装置、设备及介质
CN113051930A (zh) * 2021-03-25 2021-06-29 润联软件系统(深圳)有限公司 基于Bert模型的意图识别方法、装置及相关设备
CN113065360A (zh) * 2021-04-16 2021-07-02 平安国际智慧城市科技股份有限公司 词语语义模型的构建方法、装置、计算机设备及存储介质
CN113204698A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113343981A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 一种视觉特征增强的字符识别方法、装置和设备
CN113362809A (zh) * 2021-07-02 2021-09-07 上海淇玥信息技术有限公司 语音识别方法、装置和电子设备
CN113626603A (zh) * 2021-08-19 2021-11-09 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113836950A (zh) * 2021-09-22 2021-12-24 广州华多网络科技有限公司 商品标题文本翻译方法及其装置、设备与介质
CN114219876A (zh) * 2022-02-18 2022-03-22 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质
CN114357996A (zh) * 2021-12-06 2022-04-15 北京网宿科技有限公司 时序文本特征提取方法、装置、电子设备及存储介质
WO2022142593A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质
CN114818644A (zh) * 2022-06-27 2022-07-29 北京云迹科技股份有限公司 文本模板生成方法、装置、设备及存储介质
CN115497465A (zh) * 2022-09-06 2022-12-20 平安银行股份有限公司 语音交互方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN110807326A (zh) * 2019-10-24 2020-02-18 江汉大学 结合gpu-dmm与文本特征的短文本关键词提取方法
CN110909550A (zh) * 2019-11-13 2020-03-24 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质
CN110990559A (zh) * 2018-09-29 2020-04-10 北京国双科技有限公司 用于对文本进行分类的方法和装置、存储介质及处理器

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804423A (zh) * 2018-05-30 2018-11-13 平安医疗健康管理股份有限公司 医疗文本特征提取与自动匹配方法和系统
CN110990559A (zh) * 2018-09-29 2020-04-10 北京国双科技有限公司 用于对文本进行分类的方法和装置、存储介质及处理器
CN110807326A (zh) * 2019-10-24 2020-02-18 江汉大学 结合gpu-dmm与文本特征的短文本关键词提取方法
CN110909550A (zh) * 2019-11-13 2020-03-24 北京环境特性研究所 文本处理方法、装置、电子设备和可读存储介质

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347223A (zh) * 2020-11-03 2021-02-09 平安科技(深圳)有限公司 文档检索方法、设备及计算机可读存储介质
CN112347223B (zh) * 2020-11-03 2023-09-22 平安科技(深圳)有限公司 文档检索方法、设备及计算机可读存储介质
WO2022142593A1 (zh) * 2020-12-28 2022-07-07 深圳壹账通智能科技有限公司 文本分类方法、装置、电子设备及可读存储介质
CN112667780A (zh) * 2020-12-31 2021-04-16 上海众源网络有限公司 一种评论信息的生成方法、装置、电子设备及存储介质
CN113010740A (zh) * 2021-03-09 2021-06-22 腾讯科技(深圳)有限公司 词权重的生成方法、装置、设备及介质
CN113010740B (zh) * 2021-03-09 2023-05-30 腾讯科技(深圳)有限公司 词权重的生成方法、装置、设备及介质
CN113051930A (zh) * 2021-03-25 2021-06-29 润联软件系统(深圳)有限公司 基于Bert模型的意图识别方法、装置及相关设备
CN113065360A (zh) * 2021-04-16 2021-07-02 平安国际智慧城市科技股份有限公司 词语语义模型的构建方法、装置、计算机设备及存储介质
CN113204698A (zh) * 2021-05-31 2021-08-03 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113204698B (zh) * 2021-05-31 2023-12-26 平安科技(深圳)有限公司 新闻主题词生成方法、装置、设备及介质
CN113343981A (zh) * 2021-06-16 2021-09-03 北京百度网讯科技有限公司 一种视觉特征增强的字符识别方法、装置和设备
CN113362809A (zh) * 2021-07-02 2021-09-07 上海淇玥信息技术有限公司 语音识别方法、装置和电子设备
CN113626603A (zh) * 2021-08-19 2021-11-09 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113626603B (zh) * 2021-08-19 2024-03-29 支付宝(杭州)信息技术有限公司 文本分类的方法和装置
CN113836950A (zh) * 2021-09-22 2021-12-24 广州华多网络科技有限公司 商品标题文本翻译方法及其装置、设备与介质
CN113836950B (zh) * 2021-09-22 2024-04-02 广州华多网络科技有限公司 商品标题文本翻译方法及其装置、设备与介质
CN114357996A (zh) * 2021-12-06 2022-04-15 北京网宿科技有限公司 时序文本特征提取方法、装置、电子设备及存储介质
CN114219876A (zh) * 2022-02-18 2022-03-22 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质
CN114818644A (zh) * 2022-06-27 2022-07-29 北京云迹科技股份有限公司 文本模板生成方法、装置、设备及存储介质
CN115497465A (zh) * 2022-09-06 2022-12-20 平安银行股份有限公司 语音交互方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111639498A (zh) 知识抽取方法、装置、电子设备及存储介质
CN112597312A (zh) 文本分类方法、装置、电子设备及可读存储介质
WO2020224219A1 (zh) 中文分词方法、装置、电子设备及可读存储介质
CN111428488A (zh) 简历数据信息解析及匹配方法、装置、电子设备及介质
CN112667800A (zh) 关键词生成方法、装置、电子设备及计算机存储介质
CN112541338A (zh) 相似文本匹配方法、装置、电子设备及计算机存储介质
CN111782772A (zh) 基于ocr技术的文本自动生成方法、装置、设备及介质
CN112820269B (zh) 文本转语音方法、装置、电子设备及存储介质
CN111639153A (zh) 基于法律知识图谱的查询方法、装置、电子设备及介质
CN112100384B (zh) 一种数据观点抽取方法、装置、设备及存储介质
CN114822812A (zh) 角色对话模拟方法、装置、设备及存储介质
CN115238670B (zh) 信息文本抽取方法、装置、设备及存储介质
CN115392237B (zh) 情感分析模型训练方法、装置、设备及存储介质
CN112507663A (zh) 基于文本的判断题生成方法、装置、电子设备及存储介质
CN113205814A (zh) 语音数据标注方法、装置、电子设备及存储介质
CN116681082A (zh) 离散文本语义分段方法、装置、设备及存储介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111680168B (zh) 文本特征语义提取方法、装置、电子设备及存储介质
CN111680168A (zh) 文本特征语义提取方法、装置、电子设备及存储介质
CN114943306A (zh) 意图分类方法、装置、设备及存储介质
CN111414452A (zh) 搜索词匹配方法、装置、电子设备及可读存储介质
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质
CN112765958A (zh) 代词消解方法、装置、电子设备及存储介质
CN113704478B (zh) 文本要素提取方法、装置、电子设备及介质
CN115204120B (zh) 保险领域三元组抽取方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant