CN111723571A - 一种文本信息审核方法及系统 - Google Patents

一种文本信息审核方法及系统 Download PDF

Info

Publication number
CN111723571A
CN111723571A CN202010534330.4A CN202010534330A CN111723571A CN 111723571 A CN111723571 A CN 111723571A CN 202010534330 A CN202010534330 A CN 202010534330A CN 111723571 A CN111723571 A CN 111723571A
Authority
CN
China
Prior art keywords
matching
word
sensitive
list
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010534330.4A
Other languages
English (en)
Inventor
王晓平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jilian Network Technology Co ltd
Original Assignee
Shanghai Jilian Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jilian Network Technology Co ltd filed Critical Shanghai Jilian Network Technology Co ltd
Priority to CN202010534330.4A priority Critical patent/CN111723571A/zh
Publication of CN111723571A publication Critical patent/CN111723571A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明公开了一种文本信息审核方法及系统,基于本发明所提供的方法,相比于传统的基于关键词的文本审核方法,本发明的文本审核方法引入了分词约束有效的减少了因词语拆分匹配带来的不合理误报,并且本发明中提出了基于连续选取列表词语进行弹性匹配的方法,从而在引入分词约束提高匹配合理性的同时,也解决了直接引入分词措施进行匹配审核时所引起的低召回率问题。

Description

一种文本信息审核方法及系统
技术领域
本申请涉及信息处理技术领域,尤其涉及一种文本信息审核方法及系统。
背景技术
随着计算机技术及网络技术的快速发展,诸多网络社交平台如微博、微信、聊天社区、视频弹幕等走进了人们的生活,每一天,这些网络平台都在持续不断地产生着海量的用户交互数据如文本数据、视频数据,这在丰富了人们精神生活的同时,也给网络场景下有效的信息审核和监管带来了困难。
传统的文本审核方法通常是根据敏感词库对文本进行基于关键词的匹配审核,或者是先将敏感词映射为语义向量后再与同样经过向量化的待审核文本中的词进行向量相似度比对,这些传统方法对于语法规范的文本具有较好的效果。然而,在网络平台中的用户语言有着明显的不规范性和多变性,具体表现在网络文本语言的表述中充斥着大量的音字混合变形、谐音变形、词语填字变形、词语缺字变形、汉字拆解变形、网络习惯用语替代变形等诸多情形。
显然,对于此类网络文本信息的审核需求,传统的方法已经不能胜任,表现在:基于关键词的匹配审核方法由于缺少语义层次的高级理解,匹配出的词语往往虽然从字面上看与敏感词一致,但却有着截然不同的场景语义从而导致误报警,例如,假设有敏感词“房事”,传统方法将从待审核文本“洽谈买房事宜”中匹配成功并进行报警,但事实上这却是一例误报;而基于语义向量的匹配审核方法虽然具有高层次的语义表征,但面对充斥着不规范词语表达的网络文本语言时,往往无法有效获取词语的向量表征,从而因无法进行语义比较而导致召回率降低。
发明内容
本发明提供了一种文本信息审核方法及系统,用于解决现有技术中基于关键词的匹配审核方案因词语拆分匹配带来的不合理误报问题,并进一步解决了若直接引入分词措施进行匹配审核所带来的低召回率问题。
其具体的技术方案如下:
一种文本信息审核方法,所述方法包括:
在敏感词库中读取敏感词,并确定所述敏感词对应的各个变形映射,并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合;
确定所述敏感词对应的敏感词匹配位置,其中,所述匹配位置包含了开始位置以及结束位置;
将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配,根据匹配结果确定文本是否通过审核。
进一步地,在敏感词库中读取敏感词之前,所述方法还包括:
对输入的文本信息进行中文分词处理,得到各个分词;
输出按照词语出现先后顺序排列的分词结果列表。
进一步地,确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表,包括:
基于关键词检索匹配确定文本中的敏感词对应的敏感词匹配位置,其中,所述敏感词匹配位置包括开始位置以及结束位置;
定义分词索引位置列表,并初始化位移量。
进一步地,将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配,根据匹配结果确定文本是否通过审核,包括:
将得到的敏感词的开始位置、结束位置分别与预先计算存储的索引位置列表进行隶属匹配;
在所述开始位置以及结束位置隶属于所述索引位置列表时,则判定匹配成功,则输出文本信息审核未通过;
在所述开始位置以及结束位置未隶属于所述索引位置列表时,则判定未匹配成功,则输出文本信息审核通过。
进一步地,在输出文本信息审核未通过时,所述方法还包括:
输出未通过文本信息中的所述敏感词,并输出所述敏感词在所述文本信息中出现的位置信息以及匹配的原形敏感词以及变形敏感词。
本发明还公开一种文本信息审核系统,所述系统包括:
敏感词读取模块,用于在敏感词库中读取敏感词;
敏感词变形映射模块,用于确定所述敏感词对应的各个变形映射,并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合;
弹性匹配子模块,用于确定所述敏感词对应的敏感词匹配位置,其中,所述匹配位置包含了开始位置以及结束位置;将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配,根据匹配结果确定文本是否通过审核。
进一步地,在敏感词库中读取敏感词之前对输入的文本信息进行中文分词处理,得到各个分词;输出按照词语出现先后顺序排列的分词结果列表。
进一步地,所述弹性匹配子模块,具体用于基于关键词检索匹配确定文本中的敏感词对应的敏感词匹配位置,定义分词索引位置列表,并初始化位移量;根据分词结果列表对分词索引位置列表进行更新计算,其中,所述敏感词匹配位置包括开始位置以及结束位置。
进一步地,所述弹性匹配子模块,具体用于将得到的敏感词的开始位置、结束位置分别与预先计算存储的索引位置列表进行隶属匹配;在所述开始位置以及结束位置隶属于所述索引位置列表时,则判定匹配成功,则输出文本信息审核未通过;在所述开始位置以及结束位置未隶属于所述索引位置列表时,则判定未匹配成功,则输出文本信息审核通过。
进一步地,所述系统还包括:
审核结果输出模块,具体用于输出未通过文本信息中的所述敏感词,并输出所述敏感词在所述文本信息中出现的位置信息以及匹配的原形敏感词以及变形敏感词。
基于本发明所提供的方法,相比于传统的基于关键词语的文本审核方法,本发明的文本审核方法引入了分词约束有效的减少了因词语拆分匹配带来的不合理误报,并且本发明中提出了基于连续选取列表词语进行弹性匹配的方法,从而在引入分词约束提高匹配合理性的同时,也解决了直接引入分词措施进行匹配审核时所引起的低召回率问题。
另外,本专利提出基于关键词匹配位置与分词索引位置列表的隶属比对方法。如果按照传统常规方法思路,需要首先从分词结果列表中连续选取若干分词,然后将它们串行连接成重构体,最后再对重构体与敏感词之间进行匹配,其中遍历选取连续分词并进行匹配的计算量是O(N2),而本专利仅需执行一次关键词匹配检索,再将匹配位置结果直接与分词索引位置列表进行隶属比对即可,从而大大节省了计算量。
附图说明
图1为本发明实施例中一种文本信息审核方法的流程图;
图2为本发明实施例中一种文本信息审核系统的结构示意图。
具体实施方式
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解,本发明实施例以及实施例中的具体技术特征只是对本发明技术方案的说明,而不是限定,在不冲突的情况下,本发明实施例以及实施例中的具体技术特征可以相互组合。
如图1所示为本发明实施例中一种文本信息审核方法的流程图,该方法包括:
S1,在敏感词库中读取敏感词,并确定所述敏感词对应的各个变形映射,并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合;
首先来讲,在敏感词库中读取敏感词之前,该方法中需要进行中文分词处理,也就是引入中文分词方法对待审核的文本信息进行分词处理,并输出按照词语出现先后顺序排列的分词结果列表listseg
listseg=[seg1,seg2,…,segn],
其中,n表示分词结果列表中的元素个数。
基于上述的分词结果列表,首先遍历地读取敏感词库,对于从敏感词库中读取输出的敏感词,按照预先设定的变形规则进行变形处理,这里的变形规则可以是音字混合变形、谐音变形、词语填字变形、词语缺字变形、汉字拆解变形、网络习惯用语替代变形等等。
举例来讲,对敏感词w进行变形,并与原始敏感词共同组成匹配词元素集合collection。
Figure BDA0002536497730000051
其中,fy(x)表示按照定义的变形规则y对词语x进行变形,并返回变形结果,m表示变形规则总数。
S2,确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表;
对于敏感词变形映射输出的匹配词元素集合collection,依次将集合中的每一个元素与listseg中的若干连续元素进行弹性匹配,从而达到跨分词单元匹配的审核的目的。因此本发明中为了高效的实现弹性匹配过程,提出了基于关键词匹配位置与分词索引位置列表的隶属对比方法,首先基于关键词匹配找出文本中的敏感词匹配位置(包括开始位置、结束位置);然后将敏感词匹配位置与预先计算存储的分词索引位置列表进行隶属比对,如果前者完全隶属于后者则表示敏感词与从分词结果列表中连续选取的若干分词的串连重构体之间弹性匹配成功,从而判断该文本未能通过审核,同时输出敏感词匹配原形及变形映射信息以及在输入文本中出现的位置信息。
然后将敏感词匹配位置与预先计算存储的分词索引位置列表进行隶属对比。
在进行对比之前,首先是定义分词索引位置变量index,并将该分词索引位置变量初始化为0。
定义分词索引位置列表listindex,并初始化添加index值。
listindex计算生成,流程如下:
For词语元素iinlistseg:
index=index+length(i)
listindex添加经过累积计算更新的index值。
基于关键词检索匹配找出文本中的敏感词匹配位置(包括开始位置indexbegin、结束位置indexend),并通过While循环找出敏感词在文本中所有的出现位置以确保召回率。
S3,将敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配,根据匹配结果确定文本是否通过审核。
将敏感词匹配位置的开始位置indexbegin、结束位置indexend与预先存储的分词索引位置列表listindex进行隶属比对,以判断是否弹性匹配成功,如果前者完全隶属于后者,则表示敏感词与分词结果列表中连续选取的若干分词的串连重构体之间弹性匹配成功,从而确定该文本未能通过审核,并输出敏感词匹配原形及变形映射信息以及在输入文本中出现的位置信息,如果未匹配成功,则确定该文本信息通过审核。
下面通过具体的应用场景来对本发明技术方案做进一步的说明。
定义分词索引位置变量index并初始化为0;
定义分词索引位置列表listindex并初始化添加index值;
For词语元素iinlistseg:;
index=index+length(i)
向listindex添加过累积更新的index值
定义审核结果储存列表listfound并初始化为空
For词语元素w′incollection:;
Iflistseg包含w′(假设为列表listseg中的第i个元素);
检索词w′在输入文本中出现的位置信息indexbegin=listindex(i);
计算敏感词w′末字符在text中的匹配位置indexend
indexend=listindex(i+1)
将检索词w′在输入文本中出现的位置信息indexbegin、indexend及匹配的原形及变形信息w、w′结构化后储存入listfound
Else:
定义待检索位置indexdetect并初始化为0;
在文本text中从位置indexdetect开始检索词w′,并获取w′首字符在text中的匹配indexbegin
Whileindexbegin非空:
计算敏感词w′末字符在text中的匹配位置indexend
indexend=indexbegin+length(w′)
Ifindexbegin、indexend均隶属于listindex
将检索词w′在输入文本中出现的位置信息indexbegin、indexend
及匹配的原形及变形信息w、w′结构化后储存入listfound
indexdetect=indexend+1
Ifindexdetect≤length(text)-length(w′):
对文本text:从位置indexdetect起往后继续检索词w′,并用下一
次匹配到的位置对indexbegin的值进行更新;
Iflistfound非空:
判断文本text未通过审核,同时按列表元素储存顺序将listfound中的详细内容
进行输出;
Else:
判断文本text通过审核。
基于本发明所提供的方法,相比于传统的基于关键词的文本审核方法,本发明的文本审核方法引入了分词约束有效的减少了因词语拆分匹配带来的不合理误报,并且本发明中提出了基于连续选取列表词语进行弹性匹配的方法,从而在引入分词约束提高匹配合理性的同时,也解决了直接引入分词措施进行匹配审核时所引起的低召回率问题。
另外,本专利提出基于关键词匹配位置与分词索引位置列表的隶属比对方法。如果按照传统常规方法思路,需要首先从分词结果列表中连续选取若干分词,然后将它们串行连接成重构体,最后再对重构体与敏感词之间进行匹配,其中遍历选取连续分词并进行匹配的计算量是O(N2),而本专利仅需执行一次关键词匹配检索,再将匹配位置结果直接与分词索引位置列表进行隶属比对即可,从而大大节省了计算量。
对应本发明所提供的方法,本发明实施例中还提供了一种文本信息审核系统,如图2所示为本发明实施例中一种文本信息审核系统的结构示意图,该系统包括:
敏感词读取模块201,用于在敏感词库中读取敏感词;
敏感词变形映射模块202,用于确定所述敏感词对应的各个变形映射,并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合;
弹性匹配子模块203,用于确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表,其中,所述匹配位置包含了开始位置以及结束位置;将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配,根据匹配结果确定文本是否通过审核。
此外,在敏感词库中读取敏感词之前对输入的文本信息进行中文分词处理,得到各个分词;输出按照词语出现先后顺序排列的分词结果列表。
进一步,在本发明实施例中,所述弹性匹配子模块203,具体用于基于关键词检索匹配确定文本中的敏感词对应的敏感词匹配位置,定义分词索引位置列表,并初始化位移量;根据分词结果列表对分词索引位置列表进行更新计算,其中,所述敏感词匹配位置包括开始位置以及结束位置。
进一步,在本发明实施例中,所述弹性匹配子模块203,用于将得到的敏感词的开始位置、结束位置分别与预先计算存储的索引位置列表进行隶属匹配;在所述开始位置以及结束位置隶属于所述索引位置列表时,则判定匹配成功,则输出文本信息审核未通过;在所述开始位置以及结束位置未隶属于所述索引位置列表时,则判定未匹配成功,则输出文本信息审核通过。
进一步,在本发明实施例中,所述系统还包括:
审核结果输出模块,具体用于输出未通过文本信息中的所述敏感词,并输出所述敏感词在所述文本信息中出现的位置信息以及匹配的原形敏感词以及变形敏感词。
尽管已描述了本申请的优选实施例,但本领域内的普通技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改,包括采用特定符号、标记确定顶点等变更方式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种文本信息审核方法,其特征在于,所述方法包括:
在敏感词库中读取敏感词,并确定所述敏感词对应的各个变形映射,并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合;
确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表,其中,所述匹配位置包含了开始位置以及结束位置;
将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配,根据匹配结果确定文本是否通过审核。
2.如权利要求1所述的方法,其特征在于,在敏感词库中读取敏感词之前,所述方法还包括:
对输入的文本信息进行中文分词处理,得到各个分词;
输出按照词语出现先后顺序排列的分词结果列表。
3.如权利要求1所述的方法,其特征在于,确定所述敏感词对应的敏感词匹配位置及计算分词索引位置列表,包括:
基于关键词检索匹配确定文本中的敏感词对应的敏感词匹配位置,其中,所述敏感词匹配位置包括开始位置以及结束位置;
定义分词索引位置列表,并初始化位移量;根据分词结果列表对分词索引位置列表进行更新计算。
4.如权利要求1所述的方法,其特征在于,将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配,根据匹配结果确定文本是否通过审核,包括:
将得到的敏感词的开始位置、结束位置分别与预先计算存储的索引位置列表进行隶属匹配;
在所述开始位置以及结束位置隶属于所述索引位置列表时,则判定匹配成功,则输出文本信息审核未通过;
在所述开始位置以及结束位置未隶属于所述索引位置列表时,则判定未匹配成功,则输出文本信息审核通过。
5.如权利要求4所述的方法,其特征在于,在输出文本信息审核未通过时,所述方法还包括:
输出未通过文本信息中的所述敏感词,并输出所述敏感词在所述文本信息中出现的位置信息以及匹配的原形敏感词以及变形敏感词。
6.一种文本信息审核系统,其特征在于,所述系统包括:
敏感词读取模块,用于在敏感词库中读取敏感词;
敏感词变形映射模块,用于确定所述敏感词对应的各个变形映射,并得到包含所述敏感词以及各个变形映射结果的匹配词元素集合;
弹性匹配子模块,用于确定所述敏感词对应的敏感词匹配位置,其中,所述匹配位置包含了开始位置以及结束位置;将所述敏感词匹配位置与预先计算存储的分词索引位置列表进行匹配,根据匹配结果确定文本是否通过审核。
7.如权利要求6所述的系统,其特征在于,在敏感词库中读取敏感词之前对输入的文本信息进行中文分词处理,得到各个分词;输出按照词语出现先后顺序排列的分词结果列表。
8.如权利要求6所述的系统,其特征在于,所述弹性匹配子模块,具体用于基于关键词检索匹配确定文本中的敏感词对应的敏感词匹配位置,定义分词索引位置列表,并初始化位移量;根据分词结果列表对分词索引位置列表进行更新计算,其中,所述敏感词匹配位置包括开始位置以及结束位置。
9.如权利要求6所述的系统,其特征在于,所述弹性匹配子模块,具体用于将得到的敏感词的开始位置、结束位置分别与预先计算存储的索引位置列表进行隶属匹配;在所述开始位置以及结束位置隶属于所述索引位置列表时,则判定匹配成功,则输出文本信息审核未通过;在所述开始位置以及结束位置未隶属于所述索引位置列表时,则判定未匹配成功,则输出文本信息审核通过。
10.如权利要求6所述的系统,其特征在于,所述系统还包括:
审核结果输出模块,具体用于输出未通过文本信息中的所述敏感词,并输出所述敏感词在所述文本信息中出现的位置信息以及匹配的原形敏感词以及变形敏感词。
CN202010534330.4A 2020-06-12 2020-06-12 一种文本信息审核方法及系统 Pending CN111723571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010534330.4A CN111723571A (zh) 2020-06-12 2020-06-12 一种文本信息审核方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010534330.4A CN111723571A (zh) 2020-06-12 2020-06-12 一种文本信息审核方法及系统

Publications (1)

Publication Number Publication Date
CN111723571A true CN111723571A (zh) 2020-09-29

Family

ID=72568103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010534330.4A Pending CN111723571A (zh) 2020-06-12 2020-06-12 一种文本信息审核方法及系统

Country Status (1)

Country Link
CN (1) CN111723571A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434523A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词谐音匹配误警率的文本审核装置及方法
CN112434522A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词误警率的文本审核后处理装置及方法
CN116150323A (zh) * 2023-04-23 2023-05-23 天津市普迅电力信息技术有限公司 一种基于人工智能的文本语言数据处理方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN104317882A (zh) * 2014-10-21 2015-01-28 北京理工大学 一种决策级中文分词融合方法
CN104361042A (zh) * 2014-10-29 2015-02-18 中国建设银行股份有限公司 一种信息检索方法及装置
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
CN106909628A (zh) * 2017-01-24 2017-06-30 南京大学 一种基于区间的文本相似搜索方法
CN107025239A (zh) * 2016-02-01 2017-08-08 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN108269115A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 一种广告安全评估方法及系统
CN108874780A (zh) * 2018-06-27 2018-11-23 清远墨墨教育科技有限公司 一种分词算法系统
CN112434522A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词误警率的文本审核后处理装置及方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
CN101477568A (zh) * 2009-02-12 2009-07-08 清华大学 一种结构化数据和非结构化数据综合检索的方法
CN104317882A (zh) * 2014-10-21 2015-01-28 北京理工大学 一种决策级中文分词融合方法
CN104361042A (zh) * 2014-10-29 2015-02-18 中国建设银行股份有限公司 一种信息检索方法及装置
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
CN107025239A (zh) * 2016-02-01 2017-08-08 博雅网络游戏开发(深圳)有限公司 敏感词过滤的方法和装置
CN108269115A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 一种广告安全评估方法及系统
CN106909628A (zh) * 2017-01-24 2017-06-30 南京大学 一种基于区间的文本相似搜索方法
CN108874780A (zh) * 2018-06-27 2018-11-23 清远墨墨教育科技有限公司 一种分词算法系统
CN112434522A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词误警率的文本审核后处理装置及方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ZHBZZ2007: ""结巴分词2--基于前缀词典及动态规划实现分词"", pages 1 - 6, Retrieved from the Internet <URL:《http://www.cnblogs.com/zhbzz2007 》> *
付聪 等: ""面向中文敏感词变形体的识别方法研究"", 《计算机应用研究》, vol. 36, no. 04, 9 February 2018 (2018-02-09), pages 987 - 991 *
俞浩亮 等: ""基于特征加权的网络不良内容识别方法"", 《现代电子技术》, vol. 39, no. 03, 1 February 2016 (2016-02-01), pages 76 - 79 *
帅正化 等: ""基于柔性匹配的中文文本特征提取方法"", 《计算机工程》, vol. 36, no. 16, 20 August 2010 (2010-08-20), pages 63 - 64 *
明弋洋 等: ""基于短语级情感分析的不良信息检测方法"", 《 四川大学学报(自然科学版)》, vol. 56, no. 6, 25 November 2019 (2019-11-25), pages 1042 - 1048 *
林鹏: "《互联网安全建设从0到1》", 31 May 2020, 机械工业出版社, pages: 239 - 242 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434523A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词谐音匹配误警率的文本审核装置及方法
CN112434522A (zh) * 2020-11-25 2021-03-02 上海极链网络科技有限公司 一种降低敏感词误警率的文本审核后处理装置及方法
CN112434523B (zh) * 2020-11-25 2022-08-26 上海极链网络科技有限公司 一种降低敏感词谐音匹配误警率的文本审核装置及方法
CN112434522B (zh) * 2020-11-25 2022-08-26 上海极链网络科技有限公司 一种降低敏感词误警率的文本审核后处理装置及方法
CN116150323A (zh) * 2023-04-23 2023-05-23 天津市普迅电力信息技术有限公司 一种基于人工智能的文本语言数据处理方法
CN116150323B (zh) * 2023-04-23 2023-06-23 天津市普迅电力信息技术有限公司 一种基于人工智能的文本语言数据处理方法

Similar Documents

Publication Publication Date Title
US11017178B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111723571A (zh) 一种文本信息审核方法及系统
de Araújo et al. Re-bert: automatic extraction of software requirements from app reviews using bert language model
CN111666350B (zh) 一种基于bert模型的医疗文本关系抽取的方法
CN114020936B (zh) 多模态事理图谱的构建方法、系统和可读存储介质
CN110727839A (zh) 自然语言查询的语义解析
Bellare et al. Learning extractors from unlabeled text using relevant databases
CN115080766B (zh) 基于预训练模型的多模态知识图谱表征系统及方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN114580428A (zh) 融合多任务和多标签学习的司法领域深度事件抽取方法
CN114612767A (zh) 一种基于场景图的图像理解与表达方法、系统与存储介质
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
CN111428503A (zh) 同名人物的识别处理方法及处理装置
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
CN114817510A (zh) 问答方法、问答数据集生成方法及装置
CN114637846A (zh) 视频数据处理方法、装置、计算机设备和存储介质
CN114461827A (zh) 一种以图搜图的方法及装置
CN105808522A (zh) 一种语义联想的方法及装置
CN111737422B (zh) 实体链接方法、装置、电子设备和存储介质
CN115982389B (zh) 知识图谱生成方法、装置和设备
CN115470414B (zh) 一种联名人推荐方法及推荐系统
CN114723073B (zh) 语言模型预训练、产品搜索方法、装置以及计算机设备
WO2021217974A1 (zh) 一种口语语义匹配的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination