CN111259151B - 一种混合文本敏感词变体识别方法和装置 - Google Patents

一种混合文本敏感词变体识别方法和装置 Download PDF

Info

Publication number
CN111259151B
CN111259151B CN202010066040.1A CN202010066040A CN111259151B CN 111259151 B CN111259151 B CN 111259151B CN 202010066040 A CN202010066040 A CN 202010066040A CN 111259151 B CN111259151 B CN 111259151B
Authority
CN
China
Prior art keywords
text
chinese
type
character
character strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010066040.1A
Other languages
English (en)
Other versions
CN111259151A (zh
Inventor
徐波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Original Assignee
Duoyi Network Co ltd
GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD
Guangzhou Duoyi Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Duoyi Network Co ltd, GUANGDONG LIWEI NETWORK TECHNOLOGY CO LTD, Guangzhou Duoyi Network Co ltd filed Critical Duoyi Network Co ltd
Priority to CN202010066040.1A priority Critical patent/CN111259151B/zh
Publication of CN111259151A publication Critical patent/CN111259151A/zh
Application granted granted Critical
Publication of CN111259151B publication Critical patent/CN111259151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种混合文本敏感词变体识别方法和装置,属于网络领域,具体包括以下步骤:对文本进行切分处理,得到多种类型的文本块,记录各文本块的一级位置索引表;对非中文的文本块进行切分处理,得到单一类型的子文本块,记录各子文本块的二级位置索引表;将中文类型的文本块和单一类型的子文本块转换为同一类型的字符串集;根据一级位置索引表和二级位置索引表将同一类型的字符串集进行排列,再转换成中英文词组集;根据敏感词库对中文词组集进行敏感词匹配。本发明能够针对混合文本进行敏感词变形识别,降低维护敏感词表的工作量。

Description

一种混合文本敏感词变体识别方法和装置
技术领域
本发明涉及网络技术领域,特别是指一种混合文本敏感词变体识别方法和装置。
背景技术
随着网络的普及和迅速发展,网络游戏已经成为电子游戏的主流形式。随着游戏内聊天互动平台的开放,游戏内不同玩家之间的交流日益频繁。在交流过程中,由于玩家素质有高有低,就会产生一系列不符合国家法律法规或者辱骂性言论,对游戏的正常运营和游戏环境的维护产生风险。因此,设置构造相应的敏感词表,在玩家发表言论前,对其言论进行审核是很有必要的一个环节。但传统的做法,一般通过关键词与待审核文本直接进行匹配进行识别,这样一来,用户对敏感词进行变形,如“汉字拼音英文混合”,“错别字代称”,“数字符号代称”等方式,直接匹配的方式就会失效。进一步,当用户发现自己的言论被屏蔽后,一般会采取上述方式进行敏感词变形避开审核。
目前对文本敏感词变体识别的主要方法如下:
(1)基于敏感词表的规则匹配方法。首先将指定的敏感词汇和变体直接存入数据库中,然后将用户输入的文本内容与敏感词列表进行匹配,如输入的文本命中词表中的内容,就认为该本文含有敏感信息,需要进行进一步操作;
(2)采用机器学习的分类技术。通过采用bigram,词干等作为特征值来对文本信息做分类分析,或者基于贝叶斯滤波技术对文本内容信息概率统计,以检测出敏感词变体。
(3)基于深度神经网络的方法。利用大量人工标注的带标签的训练数据,采用卷积神经网络,循环神经网络或者transformer网络等深度神经网络对敏感信息的特征进行学习,构造相应的分类器,从而识别敏感词变体。
通过观察实践应用中的表现,发现上述这些方法存在如下不足:
(1)基于词表的规则匹配方法存在查找效率低,词表维护困难的问题。一般处理敏感词变体的方式是穷举法,将敏感词及变体都写入词表,但这种方法不仅会造成词表臃肿,降低查找效率,还无法动态捕捉新产生的变体;
(2)基于机器学习或者深度神经网络的分类方法存在误判风险,分类器分类效果受训练语料质量影响明显,目前这种方法在敏感词识别领域的应用还不够成熟,无法满足商业应用要求;
(3)目前针对敏感词识别的方法都只是对单一语种的文本进行处理,无法对中英混合文本进行处理,而实际网络中的聊天场景里中英混合文本更为常见,能对其中的敏感词进行识别显得更为实用。
发明内容
本发明提出一种混合文本敏感词变体识别方法和装置,能够针对混合文本进行敏感词变形识别,降低维护敏感词表的工作量。
本发明的技术方案是这样实现的:
一种混合文本敏感词变体识别方法,具体包括以下步骤:
S1,对文本进行切分处理,得到多种类型的文本块,记录各文本块的一级位置索引表;
S2,对包含数字字母的混合文本块进行切分处理,得到单一类型的子文本块,记录各子文本块的二级位置索引表;
S3,将中文类型的文本块和S2得到的单一类型的子文本块转换为同一类型的字符串集;
S4,根据一级位置索引表和二级位置索引表将上一步得到的同一类型的字符串集按索引顺序进行排列,再转换成中英文词组集;
S5,根据敏感词库对中英文词组集进行敏感词匹配。
作为本发明的一个优选实施例,步骤S1具体包括以下步骤:
S101,对文本进行切分处理,得到中文字符、数字字母字符串和遗弃字符三种类型的文本块;
S102,记录各类型文本块及其对应的一级位置索引表;
S103,生成中文字符集、数字字母字符串集、遗弃字符集。
作为本发明的一个优选实施例,步骤S2具体包括以下步骤:
S201,根据文本切分算法和专用词表对数字字母型文本块进行切分处理,得到英文字符串、拼音字符串、数字字符三种类型的子文本块;
S202,记录各类型的子文本块及其对应的二级位置索引表;
S203,生成英文字符串集、拼音字符串集、数字字符集。
作为本发明的一个优选实施例,步骤S3将中文类型的文本块和S2得到的单一类型的子文本块转换为同一类型的字符串集;具体指的是
将中文类型的文本块和单一类型的子文本块中除英文字符串以外的文本块全部转换为拼音字符类型的字符串集。
作为本发明的一个优选实施例,S4,根据一级位置索引表和二级位置索引表将同一类型的字符串集按索引顺序进行排列,再转换中英文词组集;具体指的是
根据一级位置索引表和二级位置索引表将各个拼音类型的字符串及进行排列后,再通过拼音转汉字脚本转化,有中文映射关系的字符串转换成中文字符串,否则将保留为原字符串,保留下来的字符串以英文字符串的身份参与后续的敏感词匹配过程,将中英文字符串和其对应的位置索引以字典的形式存入中文字符串集。
一种混合文本敏感词变体识别装置,用于实现任一项所述的混合文本敏感词变体识别方法。
本发明的有益效果在于:能够针对混合文本进行敏感词变形识别,降低维护敏感词表的工作量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种混合文本敏感词变体识别方法的流程图;
图2为本发明一种混合文本敏感词变体识别方法一个实施例的流程图;
图3为图2中文本切分算法A的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于本方法多文本进行了多次切分,相对位置也随之发生变动,为了便于描述,下文中定义了一级位置索引和二级位置索引的概念来分别描述第一次切分后文本块的相对位置和第二次切分后文本块的相对位置。
如图1-图3所示,本发明提出了一种混合文本敏感词变体识别方法,具体包括以下步骤:
S1,对文本进行切分处理,得到多种类型的文本块,记录各文本块的一级位置索引表;
步骤S1具体包括以下步骤:
S101,对文本进行切分处理,得到中文字符、数字字母字符串和遗弃字符三种类型的文本块;
S102,记录各类型文本块及其对应的一级位置索引表;
S103,生成中文字符集、数字字母字符串集、遗弃字符集。
S2,对包含数字字母的混合的文本块进行切分处理,得到单一类型的子文本块,记录各子文本块的二级位置索引表;
步骤S2具体包括以下步骤:
S201,根据文本切分算法和专用词表对数字字母型文本块进行切分处理,得到英文字符串、拼音字符串、数字字符三种类型的子文本块;
S202,记录各类型的子文本块及其对应的二级位置索引表;
S203,生成英文字符串集、拼音字符串集、数字字符集。
S3,将中文类型的文本块和S2得到的数字字符类型的子文本块分别转换为拼音字符类型的字符串集。
将中文字符转成拼音字符串,再将拼音字符串和其对应的一级位置索引以字典的形式存入拼音字符串A集。拼音字符串集为拼音字符串B集,将数字字符转成拼音字符串,再将拼音字符串和其对应的一级位置索引、二级位置索引以字典的形式存入拼音字符串C集。
S4,根据一级位置索引表和二级位置索引表将上一步得到的同一类型的字符串集按索引顺序进行排列,再转换成中英文词组集;根据一级位置索引表和二级位置索引表将各个拼音类型的字符串及进行排列后,再通过拼音转汉字脚本转化成中文字符串,将中文字符串和其对应的位置索引以字典的形式存入中文字符串集。
汇总生成的拼音字符串A集、拼音字符串B集、拼音字符串C集到拼音字符串总集。
S5,根据敏感词库对中文词组集进行敏感词匹配。将英文字符串集和中文字符串集分别与事先准备好的敏感词库进行匹配,如果命中到敏感词库中的敏感词,则输入匹配到的敏感词信息,包括命中的敏感词文本和敏感词对应的原始输入文本。
下面举例说明本专利基于Python语言中的一种实现装置。
本方法在实现过程中的大部分底层转化过程可借助python开源库实现,如汉字转拼音部分可借助pypinyin库实现,拼音转汉字部分可借助Pinyin2Hanzi库实现,这部分内容都不再赘述。本部分主要介绍方法中双层切分算法的具体实现过程。为了便于记录文本在切分过程字符的位置变化情况,在本装置中构造二维数组indices=[idx_A,idx_B]来表示文本中字符的位置索引,其中idx_A表示字符的一级位置索引向量,idx_B表示字符的二级位置索引向量,索引向量值默认为
Figure BDA0002375987010000061
文本切分算法A采用定义正则匹配规则的方式对文本进行分类,如图3所示:
(1)获得输入文本中的数字字母型字符串集。先获取输入文本中每个字符的一级索引值,存入索引数组indices。再借助Python标准库re,自定义正则通配符([^0-9A-Za-z']),可从字符串中筛选出数字字母型字符串。以筛选出数字字母型字符串为key,索引数组indices为value,构造字典,存入数字字母型字符串集D1;文本中剩余的字符则以同样的形式存入其他字符集D_tmp;
⑵获得输入文本中的中文字符集。同样借助Python标准库re,自定义正则通配符([u4e00-\u9fa5]),可从字符串中筛选出中文字符。以筛选出的中文字符为key,索引数组indices为value,构造字典,存入中文字符集D2;D_tmp中剩余的键值对则存入遗弃字符集D_discard;
通过以上两步可将输入文本的全部字符分别存入数字字母型字符串集D1、中文字符集D2、遗弃字符集D_discard。其中后续步骤不再对遗弃字符集中字符进行处理。
文本切分算法B采用动态规划方法的方式对数字字母型字符串进行拆分,流程算法大致思路:因为词表中的词都是独立分布且按词频排序好的,符合齐夫定律(Zipf’slaw),即一个单词出现的频率和在词表中的排序成反比。用该定律可以粗略的计算词表中词word的出现概率:
p(word(k))=1/(k*log(N)) (B-1)
k为单词word在词表中的位置序列,N为单词列表中词的总数目。在确定每个词的概率之后,就可以计算字符串切分后所有词的概率乘积。
当所有词的概率乘积为最大值时的句子是最希望得到的句子切分方式,同时为了方便计算,本方法中先定义了一个代价函数:
cost(str)=-log(p(str))=log(k(str)*log(N)) (B-2)
用来表征词的概率大小,其中k(str)为字符串str在词表中的位置序列,N为词表中词的总数目,再通过公式:
Figure BDA0002375987010000062
可确定字符串中字符间最佳切分位置序列best_idx,其中str_lst为字符串str中字符组成的列表,L为字符串str长度,m为str_lst中字符的位置索引值。
切分算法B的具体步骤:
(1)构建专用词表;将数字、拼音和英文单词分别按词频排序后拼接成一张完整词表(按数字、拼音、英文的次序)。通过公式(B-2)可以计算词表中每个word的cost值。以word为key,word所对应的cost值为value,可构造出字典wordcost存储列表中的词和cost值;
⑵计算输入字符串可能得到的最小组合cost值。运用动态规划的思想计算输入字符串在每个字符间切分时,每个切分位置上能得到的最小组合cost值,记录到列表cost_min中。假定输入字符串str长度为L,动态规划的边界条件cost_min[0]设为0;通过公式(B-3)可以获取str中前i个字符组成的切片的最佳切分位置best_idx(i),假设已经确定了cost_min中的前i-1个字符的最小组合cost值,前i个字符的最小组合cost值cost_min[i]可通过如下状态转移方程求得:
cost_min[i]=min(cost(str_lst[-best_idx(i):])+cost_min(i-best_idx(i))) (B-4)
(best_idx(i),cost_min[i])以元组的形似保存到元组cost_final中。
(3)确定字符串中字符切分位置。可通过回溯法沿字符串逆向切分字符串str,每次切分的字符步长为best_idx(i),切分出来的字符串为str_cut=str_lst[L-best_idx(i):L],L每次切分后减去best_idx(i),知道str全部切分完。最后将所有str_cut结果按逆序保存即为输入字符串最终的切分结果。
一种混合文本敏感词变体识别装置,用于实现任一项所述的混合文本敏感词变体识别方法。
本发明能够对中英拼多种类型混合构成的文本进行敏感词及其变体识别。通过设计双层切分算法,从混合文本中切分出不同类型的文本,再采用拼音转化的手段使文本中常见的敏感词变体恢复成敏感词本体,能够有效地降低敏感词识别难度,提高敏感词变体的识别准确率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种混合文本敏感词变体识别方法,其特征在于,具体包括以下步骤:
S1,对文本进行切分处理,得到中文字符、数字字母字符串和遗弃字符三种类型的文本块,记录各文本块的一级位置索引表;
S2,对包含数字字母的混合的文本块进行切分处理,得到英文字符串、拼音字符串、数字字符三种类型的子文本块,记录各子文本块的二级位置索引表;
S3,将中文类型的文本块和S2得到的单一类型的子文本块转换为同一类型的字符串集;
所述同一类型为拼音字符类型;
S4,根据一级位置索引表和二级位置索引表将上一步得到的同一类型的字符串集按索引顺序进行排列,再转换成中英文词组集;具体指的是:
根据一级位置索引表和二级位置索引表将各个拼音类型的字符串及进行排列后,再通过拼音转汉字脚本转化,有中文映射关系的字符串转换成中文字符串,否则将保留为原字符串,保留下来的字符串以英文字符串的身份参与后续的敏感词匹配过程,将中英文字符串和其对应的位置索引以字典的形式存入中文字符串集;
S5,根据敏感词库对中英文词组集进行敏感词匹配。
2.根据权利要求1所述的一种混合文本敏感词变体识别方法,其特征在于,步骤S1具体包括以下步骤:
S101,对文本进行切分处理,得到中文字符、数字字母字符串和遗弃字符三种类型的文本块;
S102,记录各类型文本块及其对应的一级位置索引表;
S103,生成中文字符集、数字字母字符串集、遗弃字符集。
3.根据权利要求1所述的一种混合文本敏感词变体识别方法,其特征在于,步骤S2具体包括以下步骤:
S201,根据文本切分算法和专用词表对数字字母型文本块进行切分处理,得到英文字符串、拼音字符串、数字字符三种类型的子文本块;
S202,记录各类型的子文本块及其对应的二级位置索引表;
S203,生成英文字符串集、拼音字符串集、数字字符集。
4.根据权利要求1所述的一种混合文本敏感词变体识别方法,其特征在于,步骤S3将中文类型的文本块和S2得到的单一类型的子文本块转换为同一类型的字符串集;具体指的是:
将中文类型的文本块和单一类型的子文本块中除英文字符串以外的文本块全部转换为拼音字符类型的字符串集。
5.一种混合文本敏感词变体识别装置,其特征在于,用于实现权利要求1-4任一项所述的混合文本敏感词变体识别方法。
CN202010066040.1A 2020-01-20 2020-01-20 一种混合文本敏感词变体识别方法和装置 Active CN111259151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010066040.1A CN111259151B (zh) 2020-01-20 2020-01-20 一种混合文本敏感词变体识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010066040.1A CN111259151B (zh) 2020-01-20 2020-01-20 一种混合文本敏感词变体识别方法和装置

Publications (2)

Publication Number Publication Date
CN111259151A CN111259151A (zh) 2020-06-09
CN111259151B true CN111259151B (zh) 2023-05-30

Family

ID=70945386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010066040.1A Active CN111259151B (zh) 2020-01-20 2020-01-20 一种混合文本敏感词变体识别方法和装置

Country Status (1)

Country Link
CN (1) CN111259151B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989838B (zh) * 2021-05-17 2021-08-31 北京智慧易科技有限公司 文本联系实体提取方法、装置、设备及可读存储介质
CN113505280B (zh) * 2021-07-28 2023-08-22 全知科技(杭州)有限责任公司 一种通用场景的敏感密钥信息识别提取技术
CN113591464B (zh) * 2021-07-28 2022-06-10 百度在线网络技术(北京)有限公司 变体文本检测方法、模型训练方法、装置及电子设备
CN113642739B (zh) * 2021-08-12 2022-04-12 北京华宇元典信息服务有限公司 敏感词屏蔽质量评估模型的训练方法及相应的评估方法
CN114048102B (zh) * 2021-11-18 2022-07-22 广州银汉科技有限公司 一种基于大数据的聊天智能分析监控系统
CN114021564B (zh) * 2022-01-06 2022-04-01 成都无糖信息技术有限公司 一种针对社交文本的切分取词方法及系统
CN115081440B (zh) * 2022-07-22 2022-11-01 湖南湘生网络信息有限公司 文本中变种词的识别及提取原敏感词的方法、装置及设备
CN115081629A (zh) * 2022-08-16 2022-09-20 杭州比智科技有限公司 一种敏感数据发现与识别的深度学习方法及系统
CN117892724A (zh) * 2024-03-15 2024-04-16 成都赛力斯科技有限公司 一种文本检测方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253983A (zh) * 2011-06-28 2011-11-23 北京新媒传信科技有限公司 一种汉语高危词识别方法和系统
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤系统
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102253983A (zh) * 2011-06-28 2011-11-23 北京新媒传信科技有限公司 一种汉语高危词识别方法和系统
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN105468584A (zh) * 2015-12-31 2016-04-06 武汉鸿瑞达信息技术有限公司 文本中不良文字信息的过滤方法及过滤系统

Also Published As

Publication number Publication date
CN111259151A (zh) 2020-06-09

Similar Documents

Publication Publication Date Title
CN111259151B (zh) 一种混合文本敏感词变体识别方法和装置
CN112084796B (zh) 一种基于Transformer深度学习模型的多语种地名词根汉译方法
CN101520802A (zh) 一种问答对的质量评价方法和系统
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN109740164B (zh) 基于深度语义匹配的电力缺陷等级识别方法
CN111966810B (zh) 一种用于问答系统的问答对排序方法
CN109684928B (zh) 基于互联网检索的中文文档识别方法
CN107977353A (zh) 一种基于lstm-cnn的混合语料命名实体识别方法
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN109086274B (zh) 基于约束模型的英文社交媒体短文本时间表达式识别方法
CN114429132A (zh) 一种基于混合格自注意力网络的命名实体识别方法和装置
Nugraha et al. Typographic-based data augmentation to improve a question retrieval in short dialogue system
CN109543036A (zh) 基于语义相似度的文本聚类方法
Gupta Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN111506726A (zh) 基于词性编码的短文本聚类方法、装置及计算机设备
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN103608805A (zh) 辞典产生装置、方法、及程序
CN108475265B (zh) 获取未登录词的方法与装置
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
KR102410582B1 (ko) 유해어에 대한 학습 데이터를 증강하는 장치, 방법 및 컴퓨터 프로그램
CN113254590B (zh) 一种基于多核双层卷积神经网络的中文文本情绪分类方法
CN114861654A (zh) 一种中文文本中基于词性融合的对抗训练的防御方法
JP5184195B2 (ja) 言語処理装置およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant