CN113407658B - 在线客服场景下的文本内容敏感词过滤替换的方法及系统 - Google Patents

在线客服场景下的文本内容敏感词过滤替换的方法及系统 Download PDF

Info

Publication number
CN113407658B
CN113407658B CN202110763152.7A CN202110763152A CN113407658B CN 113407658 B CN113407658 B CN 113407658B CN 202110763152 A CN202110763152 A CN 202110763152A CN 113407658 B CN113407658 B CN 113407658B
Authority
CN
China
Prior art keywords
word
text
target
feature
sensitive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110763152.7A
Other languages
English (en)
Other versions
CN113407658A (zh
Inventor
陈�光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ronglian Qimo Technology Co ltd
Original Assignee
Beijing Ronglian Qimo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ronglian Qimo Technology Co ltd filed Critical Beijing Ronglian Qimo Technology Co ltd
Priority to CN202110763152.7A priority Critical patent/CN113407658B/zh
Publication of CN113407658A publication Critical patent/CN113407658A/zh
Application granted granted Critical
Publication of CN113407658B publication Critical patent/CN113407658B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种在线客服场景下的文本内容敏感词过滤替换的方法及系统,其中,方法包括:步骤S1:创建数据桶;步骤S2:获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;步骤S3:获取需要进行敏感词过滤替换的文本;步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。本发明的在线客服场景下的文本内容敏感词过滤替换的方法及系统,基于敏感词库对数据桶进行配置,当数据桶配置完成后,基于数据桶对需要进行敏感词过滤替换的文本进行敏感词过滤替换,最后输出过滤替换后的目标文本,使用简单且使用成本较低。

Description

在线客服场景下的文本内容敏感词过滤替换的方法及系统
技术领域
本发明涉及客服机器人技术领域,特别涉及一种在线客服场景下的文本内容敏感词过滤替换的方法及系统。
背景技术
目前,在线客服机器人在接待访客时,在其与访客进行纯文本交流的过程中,需要对访客输入的文本进行敏感词过滤替换,以维护正常的网络秩序,目前进行敏感词过滤替换大多使用机器学习的方法发现敏感词进行过滤替换,但是,其使用成本较高。
发明内容
本发明目的之一在于提供了一种在线客服场景下的文本内容敏感词过滤替换的方法及系统,基于敏感词库对数据桶进行配置,当数据桶配置完成后,基于数据桶对需要进行敏感词过滤替换的文本进行敏感词过滤替换,最后输出过滤替换后的目标文本,使用简单且使用成本较低。
本发明实施例提供的一种在线客服场景下的文本内容敏感词过滤替换的方法,包括:
步骤S1:创建数据桶;
步骤S2:获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;
步骤S3:获取需要进行敏感词过滤替换的文本;
步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。
优选的,步骤S2中,基于敏感词库对数据桶进行配置,包括:
获取敏感词库的特征信息,特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于触发概率的节点;
基于红黑树将触发概率对应的敏感词库存储于节点上。
优选的,步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,包括:
对文本进行分词处理,获得多个第一目标词;
将第一目标词在数据桶中进行索引;
将当前进行索引的对应节点作为目标节点,将目标节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库;
将第一目标词与目标敏感词库中的第二目标词进行匹配;
当全部第一目标词在全部节点上均完成索引后,将文本中匹配符合次数大于等于预设次数阈值的第一目标词替换成预设的替换文本,获得目标文本。
优选的,步骤S4中,输出目标文本之前,还包括:
对目标文本进行预处理;
其中,对目标文本进行预处理,包括:
将文本中需要替换成替换文本的任一第一目标词作为第三目标词;
提取第三目标词的第一特征;
建立触发特征数据库,将第一特征与触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的第二特征的特征类型;
查询预设的查询方向对照表,确定特征类型对应的至少一个查询方向;
确定第三目标词在文本中的第一位置;
获取文本中在第一位置的查询方向上预设第一数量的第四目标词;
提取第四目标词的第三特征;
获取预设的近似敏感特征数据库,将第三特征与近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定第四目标词在文本中的第二位置;
获取文本中在第二位置前和/或后预设第二数量的第五目标词;
提取第五目标词的第五特征;
获取预设的否定特征数据库,将第五特征与否定特征数据库中的第六特征进行匹配,若匹配不符合,将与第四特征匹配符合的第三特征对应的第四目标词替换成替换文本;
当目标文本中需要替换成替换文本的第四目标词全部替换完成后,完成预处理。
优选的,建立触发特征数据库,包括:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,第一事件包括:敏感语句中包含触发词,且在敏感语句中触发词前和/或后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
创建第二事件,第二事件包括:敏感语句中包含关联触发词,且在敏感语句中关联触发词前/和后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用评价模型分别评价第一事件和第二事件在敏感语句大数据中的发生情况;
获取评价模型对第一事件进行评价后输出的多个第一评价值以及对第二事件进行评价后输出的多个第二评价值;
基于第一评价值和第二评价值计算评价指数,计算公式如下:
Figure BDA0003150729290000031
Figure BDA0003150729290000032
其中,σ为评价指数,θ1,i为第i个第一评价值,θ2,i为第i个第二评价值,α为第一评价值的总数目,β为第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为第一评价值中小于等于预设的第一评价值阈值的第一评价值的第一个数,μ2为第二评价值中小于等于预设的第二评价值阈值的第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若评价指数大于等于预设的评价指数阈值,提取触发词的第七特征以及与触发词对应的全部关联触发词第八特征,将第七特征和第八特征存入空白数据库;
当触发词集合中需要存入空白数据库的触发词的第七特征以及对应全部关联触发词的第八特征均存入空白数据库后,将空白数据库作为触发特征数据库,完成建立。
本发明实施例提供的一种在线客服场景下的文本内容敏感词过滤替换的系统,包括:
创建模块,用于创建数据桶;
配置模块,用于获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;
获取模块,用于获取需要进行敏感词过滤替换的文本;
过滤替换模块,用于基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。
优选的,配置模块执行如下操作:
获取敏感词库的特征信息,特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于触发概率的节点;
基于红黑树将触发概率对应的敏感词库存储于节点上。
优选的,过滤替换模块执行如下操作:
对文本进行分词处理,获得多个第一目标词;
将第一目标词在数据桶中进行索引;
将当前进行索引的对应节点作为目标节点,将目标节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库;
将第一目标词与目标敏感词库中的第二目标词进行匹配;
当全部第一目标词在全部节点上均完成索引后,将文本中匹配符合次数大于等于预设次数阈值的第一目标词替换成预设的替换文本,获得目标文本。
优选的,过滤替换模块还执行如下操作:
对目标文本进行预处理;
其中,过滤替换模块对目标文本进行预处理,具体执行如下操作:
将文本中需要替换成替换文本的任一第一目标词作为第三目标词;
提取第三目标词的第一特征;
建立触发特征数据库,将第一特征与触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的第二特征的特征类型;
查询预设的查询方向对照表,确定特征类型对应的至少一个查询方向;
确定第三目标词在文本中的第一位置;
获取文本中在第一位置的查询方向上预设第一数量的第四目标词;
提取第四目标词的第三特征;
获取预设的近似敏感特征数据库,将第三特征与近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定第四目标词在文本中的第二位置;
获取文本中在第二位置前和/或后预设第二数量的第五目标词;
提取第五目标词的第五特征;
获取预设的否定特征数据库,将第五特征与否定特征数据库中的第六特征进行匹配,若匹配不符合,将与第四特征匹配符合的第三特征对应的第四目标词替换成替换文本;
当目标文本中需要替换成替换文本的第四目标词全部替换完成后,完成预处理。
优选的,过滤替换模块建立触发特征数据,具体执行如下操作:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,第一事件包括:敏感语句中包含触发词,且在敏感语句中触发词前和/或后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
创建第二事件,第二事件包括:敏感语句中包含关联触发词,且在敏感语句中关联触发词前/和后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用评价模型分别评价第一事件和第二事件在敏感语句大数据中的发生情况;
获取评价模型对第一事件进行评价后输出的多个第一评价值以及对第二事件进行评价后输出的多个第二评价值;
基于第一评价值和第二评价值计算评价指数,计算公式如下:
Figure BDA0003150729290000051
Figure BDA0003150729290000052
其中,σ为评价指数,θ1,i为第i个第一评价值,θ2,i为第i个第二评价值,α为第一评价值的总数目,β为第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为第一评价值中小于等于预设的第一评价值阈值的第一评价值的第一个数,μ2为第二评价值中小于等于预设的第二评价值阈值的第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若评价指数大于等于预设的评价指数阈值,提取触发词的第七特征以及与触发词对应的全部关联触发词第八特征,将第七特征和第八特征存入空白数据库;
当触发词集合中需要存入空白数据库的触发词的第七特征以及对应全部关联触发词的第八特征均存入空白数据库后,将空白数据库作为触发特征数据库,完成建立。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种在线客服场景下的文本内容敏感词过滤替换的方法的流程图;
图2为本发明实施例中一种在线客服场景下的文本内容敏感词过滤替换的系统的示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,如图1所示,包括:
步骤S1:创建数据桶;
步骤S2:获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;
步骤S3:获取需要进行敏感词过滤替换的文本;
步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。
上述技术方案的工作原理及有益效果为:
预设的多个敏感词库具体为:多个包含大量敏感词的数据库;创建数据桶,基于敏感词库对数据桶进行配置,获取需要进行敏感词过滤替换的文本(例如:用户输入的文本,从互联网中获取的用作回答用户某问题的答案文本),基于配置完成的数据桶对该文本进行过滤替换,获得目标文本,输出(显示)该目标文本;
本发明实施例基于敏感词库对数据桶进行配置,当数据桶配置完成后,基于数据桶对需要进行敏感词过滤替换的文本进行敏感词过滤替换,最后输出过滤替换后的目标文本,使用简单且使用成本较低。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,步骤S2中,基于敏感词库对数据桶进行配置,包括:
获取敏感词库的特征信息,特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于触发概率的节点;
基于红黑树将触发概率对应的敏感词库存储于节点上。
上述技术方案的工作原理及有益效果为:
预设的节点对照表具体为:由后台人员事先制成,包含多个对照项,每个对照项包含一个触发概率区间和一个数据桶的节点,对照时,当某触发概率落在触发概率区间内时,输出对应节点即可;每个敏感词库均对应有一个特征信息,包含匹配长度(对应敏感词库内的敏感词的一致文本长度)和触发概率(可基于历史敏感词过滤替换数据确定对应敏感词库内的敏感词在历史上在获取到的文本中出现的概率获得);基于红黑树(自平衡二叉查找树数据结构)将敏感词数据库存储于对应节点上,使用红黑树,便于后期在索引时,提升索引的效率。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,步骤S4:基于配置完成的数据桶对文本进行敏感词过滤替换,包括:
对文本进行分词处理,获得多个第一目标词;
将第一目标词在数据桶中进行索引;
将当前进行索引的对应节点作为目标节点,将目标节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库;
将第一目标词与目标敏感词库中的第二目标词进行匹配;
当全部第一目标词在全部节点上均完成索引后,将文本中匹配符合次数大于等于预设次数阈值的第一目标词替换成预设的替换文本,获得目标文本。
上述技术方案的工作原理及有益效果为:
预设次数阈值具体为:例如,3;预设替换文本具体为:例如,***;将文本分成多个第一目标词,将第一目标词在数据桶中进行索引(一般选取触发概率较大的节点优先进行索引);将当前进行索引的节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库,将第一目标词与该目标敏感词库中的第二目标词进行匹配,若匹配符合,计数一次,若某第一目标词发生匹配符合的次数大于预设次数阈值,说明其是敏感词坐实,使用替换文本替换即可。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,步骤S4中,输出目标文本之前,还包括:
对目标文本进行预处理;
其中,对目标文本进行预处理,包括:
将文本中需要替换成替换文本的任一第一目标词作为第三目标词;
提取第三目标词的第一特征;
建立触发特征数据库,将第一特征与触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的第二特征的特征类型;
查询预设的查询方向对照表,确定特征类型对应的至少一个查询方向;
确定第三目标词在文本中的第一位置;
获取文本中在第一位置的查询方向上预设第一数量的第四目标词;
提取第四目标词的第三特征;
获取预设的近似敏感特征数据库,将第三特征与近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定第四目标词在文本中的第二位置;
获取文本中在第二位置前和/或后预设第二数量的第五目标词;
提取第五目标词的第五特征;
获取预设的否定特征数据库,将第五特征与否定特征数据库中的第六特征进行匹配,若匹配不符合,将与第四特征匹配符合的第三特征对应的第四目标词替换成替换文本;
当目标文本中需要替换成替换文本的第四目标词全部替换完成后,完成预处理。
上述技术方案的工作原理及有益效果为:
预设的查询方式对照表具体为:由后台人员事先统计制成,包含多个对照项,每个对照项包含一个特征类型至少一个查询方向;预设第一数量具体为:例如,12;预设的近似敏感特征数据库具体为:该数据库内存储有大量近似敏感特征,例如:国家名、地区名、姓名和店名等;预设第二数量具体为:例如,2;预设的否定特征数据库具体为:该数据库内存储有大量否定特征,例如:“不”等;
例如:目标文本为“小A是一个**”,其中需要替换成替换文本的第一目标词为“东西”(已用**替换),将其作为第三目标词,提取该第三目标词的第一特征,其与某第二特征匹配符合,确定匹配符合的第二特征的特征类型为某辱骂用语,查询预设的查询方向对照表后,确定该辱骂用户常作为形容词放置在主语后,查询方向则是向前查询,获取“东西”之前的多个第四目标词“小A”“是”“一个”,提取第四目标词的第三特征,其中第四目标词“小A”的第三特征与近似敏感特征数据库中的第四特征(一个人名)匹配符合,获取“小A”前和/或后的第五目标词“是”“一个”,提取第五目标词的第五特征,其中没有能够与否定特征数据库中的第六特征匹配符合的第五特征,“小A”在目标文本中代表用户不正当用意(辱骂),应当也替换成替换文本后输出,即输出“**是一个**”,而当用户用意正确是,“小A”也能出现在最后输出的目标文本中;
目前,大量敏感词过滤替换技术均是将人名、国家名等全部作为敏感词过滤替换,本发明实施例可以结合实际情况决定是否将其过滤替换,更符合用户的实际使用需求,提升用户体验,且决定手段精细,十分智能化。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的方法,建立触发特征数据库,包括:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,第一事件包括:敏感语句中包含触发词,且在敏感语句中触发词前和/或后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
创建第二事件,第二事件包括:敏感语句中包含关联触发词,且在敏感语句中关联触发词前/和后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用评价模型分别评价第一事件和第二事件在敏感语句大数据中的发生情况;
获取评价模型对第一事件进行评价后输出的多个第一评价值以及对第二事件进行评价后输出的多个第二评价值;
基于第一评价值和第二评价值计算评价指数,计算公式如下:
Figure BDA0003150729290000091
Figure BDA0003150729290000092
其中,σ为评价指数,θ1,i为第i个第一评价值,θ2,i为第i个第二评价值,α为第一评价值的总数目,β为第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为第一评价值中小于等于预设的第一评价值阈值的第一评价值的第一个数,μ2为第二评价值中小于等于预设的第二评价值阈值的第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若评价指数大于等于预设的评价指数阈值,提取触发词的第七特征以及与触发词对应的全部关联触发词第八特征,将第七特征和第八特征存入空白数据库;
当触发词集合中需要存入空白数据库的触发词的第七特征以及对应全部关联触发词的第八特征均存入空白数据库后,将空白数据库作为触发特征数据库,完成建立。
上述技术方案的工作原理及有益效果为:
预设的触发词集合具体为:该集合内包含多个触发词,例如:辱骂用语等;预设的近似敏感词数据库具体为:该数据库内包含大量近似敏感词,例如:国家名、地区名、姓名和店名等;预设的关联触发词对照表具体为:由后台人员事先制成,包含多个对照项,每个对照项包含一个触发词和至少一个关联触发词,例如:一个辱骂用语受方言影响可能有不同表达方式,基于该对照表可以尽可能地确定某辱骂用语的多个表达方式;预设文本长度:例如,字数15;预设的评价模型具体为:利用机器学习算法对大量人工对第一事件和第二事件在敏感语句大数据中发生的情况进行评价的记录进行学习生成的模型,该模型在进行评价值,输出评价值越高,代表对应事件历史上和/或近期发生越频繁;预设的第一评价值阈值具体为:例如,80;预设的第二评价值阈值具体为:例如,75;预设的个数阈值具体为:例如,7;预设的空白数据库具体为:该数据库内没有内容;预设的评价指数阈值具体为:例如,92;敏感语句大数据具体为:互联网中的大量敏感语句;
分别建立第一事件和第二事件,该两者事件(例如:某辱骂用语前出现主语为人名的敏感语句)若频繁发生,说明对应触发词或关联触发词在实际对话中用户同时使用其与近似敏感词(例如:人名)的可能性越大,应提取其特征,存入空白数据库;通过上述公式计算评价指数,综合评价事件在敏感语句大数据中的发生情况,评价指数越大,说明对应事件发生越频繁;在进行事件统计时,可记录触发词之前出现近似敏感词和/或之后出现近似敏感词,便于工作人员制作查询方向对照表;
本发明实施例合理地从触发词集合中确定能够作为提取特征用于建立触发特征数据库的触发词以及其对应关联触发词,有效帮助后期基于触发特征数据库发现与其中某第二特征匹配符合的第一特征对应的第三目标词,提升了系统的工作效率,同时,通过上述公式基于第一评价值和第二评价值计算评价指数,综合对两个事件进行评价,极大程度上提升了系统的工作效率。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,如图2所示,包括:
创建模块1,用于创建数据桶;
配置模块2,用于获取预设的多个敏感词库,基于敏感词库对数据桶进行配置;
获取模块3,用于获取需要进行敏感词过滤替换的文本;
过滤替换模块4,用于基于配置完成的数据桶对文本进行敏感词过滤替换,获得目标文本,输出目标文本。
上述技术方案的工作原理及有益效果为:
预设的多个敏感词库具体为:多个包含大量敏感词的数据库;创建数据桶,基于敏感词库对数据桶进行配置,获取需要进行敏感词过滤替换的文本(例如:用户输入的文本,从互联网中获取的用作回答用户某问题的答案文本),基于配置完成的数据桶对该文本进行过滤替换,获得目标文本,输出(显示)该目标文本;
本发明实施例基于敏感词库对数据桶进行配置,当数据桶配置完成后,基于数据桶对需要进行敏感词过滤替换的文本进行敏感词过滤替换,最后输出过滤替换后的目标文本,使用简单且使用成本较低。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,配置模块2执行如下操作:
获取敏感词库的特征信息,特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于触发概率的节点;
基于红黑树将触发概率对应的敏感词库存储于节点上。
上述技术方案的工作原理及有益效果为:
预设的节点对照表具体为:由后台人员事先制成,包含多个对照项,每个对照项包含一个触发概率区间和一个数据桶的节点,对照时,当某触发概率落在触发概率区间内时,输出对应节点即可;每个敏感词库均对应有一个特征信息,包含匹配长度(对应敏感词库内的敏感词的一致文本长度)和触发概率(可基于历史敏感词过滤替换数据确定对应敏感词库内的敏感词在历史上在获取到的文本中出现的概率获得);基于红黑树(自平衡二叉查找树数据结构)将敏感词数据库存储于对应节点上,使用红黑树,便于后期在索引时,提升索引的效率。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,过滤替换模块4执行如下操作:
对文本进行分词处理,获得多个第一目标词;
将第一目标词在数据桶中进行索引;
将当前进行索引的对应节点作为目标节点,将目标节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库;
将第一目标词与目标敏感词库中的第二目标词进行匹配;
当全部第一目标词在全部节点上均完成索引后,将文本中匹配符合次数大于等于预设次数阈值的第一目标词替换成预设的替换文本,获得目标文本。
上述技术方案的工作原理及有益效果为:
预设次数阈值具体为:例如,3;预设替换文本具体为:例如,***;将文本分成多个第一目标词,将第一目标词在数据桶中进行索引(一般选取触发概率较大的节点优先进行索引);将当前进行索引的节点上匹配长度小于等于第一目标词的文本长度的敏感词库作为目标敏感词库,将第一目标词与该目标敏感词库中的第二目标词进行匹配,若匹配符合,计数一次,若某第一目标词发生匹配符合的次数大于预设次数阈值,说明其是敏感词坐实,使用替换文本替换即可。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,过滤替换模块4还执行如下操作:
对目标文本进行预处理;
其中,过滤替换模块4对目标文本进行预处理,具体执行如下操作:
将文本中需要替换成替换文本的任一第一目标词作为第三目标词;
提取第三目标词的第一特征;
建立触发特征数据库,将第一特征与触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的第二特征的特征类型;
查询预设的查询方向对照表,确定特征类型对应的至少一个查询方向;
确定第三目标词在文本中的第一位置;
获取文本中在第一位置的查询方向上预设第一数量的第四目标词;
提取第四目标词的第三特征;
获取预设的近似敏感特征数据库,将第三特征与近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定第四目标词在文本中的第二位置;
获取文本中在第二位置前和/或后预设第二数量的第五目标词;
提取第五目标词的第五特征;
获取预设的否定特征数据库,将第五特征与否定特征数据库中的第六特征进行匹配,若匹配不符合,将与第四特征匹配符合的第三特征对应的第四目标词替换成替换文本;
当目标文本中需要替换成替换文本的第四目标词全部替换完成后,完成预处理。
上述技术方案的工作原理及有益效果为:
预设的查询方式对照表具体为:由后台人员事先统计制成,包含多个对照项,每个对照项包含一个特征类型至少一个查询方向;预设第一数量具体为:例如,12;预设的近似敏感特征数据库具体为:该数据库内存储有大量近似敏感特征,例如:国家名、地区名、姓名和店名等;预设第二数量具体为:例如,2;预设的否定特征数据库具体为:该数据库内存储有大量否定特征,例如:“不”等;
例如:目标文本为“小A是一个**”,其中需要替换成替换文本的第一目标词为“东西”(已用**替换),将其作为第三目标词,提取该第三目标词的第一特征,其与某第二特征匹配符合,确定匹配符合的第二特征的特征类型为某辱骂用语,查询预设的查询方向对照表后,确定该辱骂用户常作为形容词放置在主语后,查询方向则是向前查询,获取“东西”之前的多个第四目标词“小A”“是”“一个”,提取第四目标词的第三特征,其中第四目标词“小A”的第三特征与近似敏感特征数据库中的第四特征(一个人名)匹配符合,获取“小A”前和/或后的第五目标词“是”“一个”,提取第五目标词的第五特征,其中没有能够与否定特征数据库中的第六特征匹配符合的第五特征,“小A”在目标文本中代表用户不正当用意(辱骂),应当也替换成替换文本后输出,即输出“**是一个**”,而当用户用意正确是,“小A”也能出现在最后输出的目标文本中;
目前,大量敏感词过滤替换技术均是将人名、国家名等全部作为敏感词过滤替换,本发明实施例可以结合实际情况决定是否将其过滤替换,更符合用户的实际使用需求,提升用户体验,且决定手段精细,十分智能化。
本发明实施例提供了一种在线客服场景下的文本内容敏感词过滤替换的系统,过滤替换模块4建立触发特征数据,具体执行如下操作:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,第一事件包括:敏感语句中包含触发词,且在敏感语句中触发词前和/或后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
创建第二事件,第二事件包括:敏感语句中包含关联触发词,且在敏感语句中关联触发词前/和后预设文本长度范围内出现至少一个近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用评价模型分别评价第一事件和第二事件在敏感语句大数据中的发生情况;
获取评价模型对第一事件进行评价后输出的多个第一评价值以及对第二事件进行评价后输出的多个第二评价值;
基于第一评价值和第二评价值计算评价指数,计算公式如下:
Figure BDA0003150729290000141
Figure BDA0003150729290000142
其中,σ为评价指数,θ1,i为第i个第一评价值,θ2,i为第i个第二评价值,α为第一评价值的总数目,β为第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为第一评价值中小于等于预设的第一评价值阈值的第一评价值的第一个数,μ2为第二评价值中小于等于预设的第二评价值阈值的第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若评价指数大于等于预设的评价指数阈值,提取触发词的第七特征以及与触发词对应的全部关联触发词第八特征,将第七特征和第八特征存入空白数据库;
当触发词集合中需要存入空白数据库的触发词的第七特征以及对应全部关联触发词的第八特征均存入空白数据库后,将空白数据库作为触发特征数据库,完成建立。
上述技术方案的工作原理及有益效果为:
预设的触发词集合具体为:该集合内包含多个触发词,例如:辱骂用语等;预设的近似敏感词数据库具体为:该数据库内包含大量近似敏感词,例如:国家名、地区名、姓名和店名等;预设的关联触发词对照表具体为:由后台人员事先制成,包含多个对照项,每个对照项包含一个触发词和至少一个关联触发词,例如:一个辱骂用语受方言影响可能有不同表达方式,基于该对照表可以尽可能地确定某辱骂用语的多个表达方式;预设文本长度:例如,字数15;预设的评价模型具体为:利用机器学习算法对大量人工对第一事件和第二事件在敏感语句大数据中发生的情况进行评价的记录进行学习生成的模型,该模型在进行评价值,输出评价值越高,代表对应事件历史上和/或近期发生越频繁;预设的第一评价值阈值具体为:例如,80;预设的第二评价值阈值具体为:例如,75;预设的个数阈值具体为:例如,7;预设的空白数据库具体为:该数据库内没有内容;预设的评价指数阈值具体为:例如,92;敏感语句大数据具体为:互联网中的大量敏感语句;
分别建立第一事件和第二事件,该两者事件(例如:某辱骂用语前出现主语为人名的敏感语句)若频繁发生,说明对应触发词或关联触发词在实际对话中用户同时使用其与近似敏感词(例如:人名)的可能性越大,应提取其特征,存入空白数据库;通过上述公式计算评价指数,综合评价事件在敏感语句大数据中的发生情况,评价指数越大,说明对应事件发生越频繁;在进行事件统计时,可记录触发词之前出现近似敏感词和/或之后出现近似敏感词,便于工作人员制作查询方向对照表;
本发明实施例合理地从触发词集合中确定能够作为提取特征用于建立触发特征数据库的触发词以及其对应关联触发词,有效帮助后期基于触发特征数据库发现与其中某第二特征匹配符合的第一特征对应的第三目标词,提升了系统的工作效率,同时,通过上述公式基于第一评价值和第二评价值计算评价指数,综合对两个事件进行评价,极大程度上提升了系统的工作效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种在线客服场景下的文本内容敏感词过滤替换的方法,应用于在线客服机器人,其特征在于,包括:
步骤S1:创建数据桶;
步骤S2:获取预设的多个敏感词库,基于所述敏感词库对所述数据桶进行配置;
步骤S3:获取需要进行敏感词过滤替换的文本;
步骤S4:基于配置完成的所述数据桶对所述文本进行敏感词过滤替换,获得目标文本,输出所述目标文本;
所述步骤S2中,基于所述敏感词库对所述数据桶进行配置,包括:
获取所述敏感词库的特征信息,所述特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于所述触发概率的节点;
基于红黑树将所述触发概率对应的所述敏感词库存储于所述节点上;
所述步骤S4:基于配置完成的所述数据桶对所述文本进行敏感词过滤替换,包括:
对所述文本进行分词处理,获得多个第一目标词;
将所述第一目标词在所述数据桶中进行索引;
将当前进行索引的对应所述节点作为目标节点,将所述目标节点上所述匹配长度小于等于所述第一目标词的文本长度的所述敏感词库作为目标敏感词库;
将所述第一目标词与所述目标敏感词库中的第二目标词进行匹配;
当全部所述第一目标词在全部所述节点上均完成索引后,将所述文本中匹配符合次数大于等于预设次数阈值的所述第一目标词替换成预设的替换文本,获得目标文本。
2.如权利要求1所述的一种在线客服场景下的文本内容敏感词过滤替换的方法,其特征在于,所述步骤S4中,输出所述目标文本之前,还包括:
对所述目标文本进行预处理;
其中,对所述目标文本进行预处理,包括:
将所述文本中需要替换成所述替换文本的任一所述第一目标词作为第三目标词;
提取所述第三目标词的第一特征;
建立触发特征数据库,将所述第一特征与所述触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的所述第二特征的特征类型;
查询预设的查询方向对照表,确定所述特征类型对应的至少一个查询方向;
确定所述第三目标词在所述文本中的第一位置;
获取所述文本中在所述第一位置的所述查询方向上预设第一数量的第四目标词;
提取所述第四目标词的第三特征;
获取预设的近似敏感特征数据库,将所述第三特征与所述近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定所述第四目标词在所述文本中的第二位置;
获取所述文本中在所述第二位置前和/或后预设第二数量的第五目标词;
提取所述第五目标词的第五特征;
获取预设的否定特征数据库,将所述第五特征与所述否定特征数据库中的第六特征进行匹配,若匹配不符合,将与所述第四特征匹配符合的所述第三特征对应的所述第四目标词替换成所述替换文本;
当所述目标文本中需要替换成所述替换文本的所述第四目标词全部替换完成后,完成预处理。
3.如权利要求2所述的一种在线客服场景下的文本内容敏感词过滤替换的方法,其特征在于,建立触发特征数据库,包括:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定所述触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,所述第一事件包括:敏感语句中包含所述触发词,且在敏感语句中所述触发词前和/或后预设文本长度范围内出现至少一个所述近似敏感词数据库中的近似敏感词;
创建第二事件,所述第二事件包括:敏感语句中包含所述关联触发词,且在敏感语句中所述关联触发词前/和后预设文本长度范围内出现至少一个所述近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用所述评价模型分别评价所述第一事件和所述第二事件在所述敏感语句大数据中的发生情况;
获取所述评价模型对所述第一事件进行评价后输出的多个第一评价值以及对所述第二事件进行评价后输出的多个第二评价值;
基于所述第一评价值和所述第二评价值计算评价指数,计算公式如下:
Figure FDA0003345237030000031
Figure FDA0003345237030000032
其中,σ为所述评价指数,θ1,i为第i个所述第一评价值,θ2,i为第i个所述第二评价值,α为所述第一评价值的总数目,β为所述第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为所述第一评价值中小于等于预设的第一评价值阈值的所述第一评价值的第一个数,μ2为所述第二评价值中小于等于预设的第二评价值阈值的所述第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若所述评价指数大于等于预设的评价指数阈值,提取所述触发词的第七特征以及与所述触发词对应的全部所述关联触发词第八特征,将所述第七特征和所述第八特征存入所述空白数据库;
当所述触发词集合中需要存入所述空白数据库的所述触发词的所述第七特征以及对应全部所述关联触发词的所述第八特征均存入所述空白数据库后,将所述空白数据库作为触发特征数据库,完成建立。
4.一种在线客服场景下的文本内容敏感词过滤替换的系统,应用于在线客服机器人,其特征在于,包括:
创建模块,用于创建数据桶;
配置模块,用于获取预设的多个敏感词库,基于所述敏感词库对所述数据桶进行配置;
获取模块,用于获取需要进行敏感词过滤替换的文本;
过滤替换模块,用于基于配置完成的所述数据桶对所述文本进行敏感词过滤替换,获得目标文本,输出所述目标文本;
所述配置模块执行如下操作:
获取所述敏感词库的特征信息,所述特征信息包括:匹配长度和触发概率;
查询预设的节点对照表,确定数据桶中对应于所述触发概率的节点;
基于红黑树将所述触发概率对应的所述敏感词库存储于所述节点上;
所述过滤替换模块执行如下操作:
对所述文本进行分词处理,获得多个第一目标词;
将所述第一目标词在所述数据桶中进行索引;
将当前进行索引的对应所述节点作为目标节点,将所述目标节点上所述匹配长度小于等于所述第一目标词的文本长度的所述敏感词库作为目标敏感词库;
将所述第一目标词与所述目标敏感词库中的第二目标词进行匹配;
当全部所述第一目标词在全部所述节点上均完成索引后,将所述文本中匹配符合次数大于等于预设次数阈值的所述第一目标词替换成预设的替换文本,获得目标文本。
5.如权利要求4所述的一种在线客服场景下的文本内容敏感词过滤替换的系统,其特征在于,所述过滤替换模块还执行如下操作:
对所述目标文本进行预处理;
其中,所述过滤替换模块对所述目标文本进行预处理,具体执行如下操作:
将所述文本中需要替换成所述替换文本的任一所述第一目标词作为第三目标词;
提取所述第三目标词的第一特征;
建立触发特征数据库,将所述第一特征与所述触发特征数据库中的第二特征进行匹配,若匹配符合,获取匹配符合的所述第二特征的特征类型;
查询预设的查询方向对照表,确定所述特征类型对应的至少一个查询方向;
确定所述第三目标词在所述文本中的第一位置;
获取所述文本中在所述第一位置的所述查询方向上预设第一数量的第四目标词;
提取所述第四目标词的第三特征;
获取预设的近似敏感特征数据库,将所述第三特征与所述近似敏感特征数据库中的第四特征进行匹配,若匹配符合,确定所述第四目标词在所述文本中的第二位置;
获取所述文本中在所述第二位置前和/或后预设第二数量的第五目标词;
提取所述第五目标词的第五特征;
获取预设的否定特征数据库,将所述第五特征与所述否定特征数据库中的第六特征进行匹配,若匹配不符合,将与所述第四特征匹配符合的所述第三特征对应的所述第四目标词替换成所述替换文本;
当所述目标文本中需要替换成所述替换文本的所述第四目标词全部替换完成后,完成预处理。
6.如权利要求5所述的一种在线客服场景下的文本内容敏感词过滤替换的系统,其特征在于,所述过滤替换模块建立触发特征数据,具体执行如下操作:
分别获取预设的触发词集合和预设的近似敏感词数据库;
查询预设的关联触发词对照表,确定所述触发词集合中每个触发词对应的至少一个关联触发词;
创建第一事件,所述第一事件包括:敏感语句中包含所述触发词,且在敏感语句中所述触发词前和/或后预设文本长度范围内出现至少一个所述近似敏感词数据库中的近似敏感词;
创建第二事件,所述第二事件包括:敏感语句中包含所述关联触发词,且在敏感语句中所述关联触发词前/和后预设文本长度范围内出现至少一个所述近似敏感词数据库中的近似敏感词;
分别获取敏感语句大数据和预设的评价模型;
使用所述评价模型分别评价所述第一事件和所述第二事件在所述敏感语句大数据中的发生情况;
获取所述评价模型对所述第一事件进行评价后输出的多个第一评价值以及对所述第二事件进行评价后输出的多个第二评价值;
基于所述第一评价值和所述第二评价值计算评价指数,计算公式如下:
Figure FDA0003345237030000051
Figure FDA0003345237030000052
其中,σ为所述评价指数,θ1,i为第i个所述第一评价值,θ2,i为第i个所述第二评价值,α为所述第一评价值的总数目,β为所述第二评价值的总数目,O1和O2为预设的权重值,O2>1>O1>0,γ为中间变量,μ1为所述第一评价值中小于等于预设的第一评价值阈值的所述第一评价值的第一个数,μ2为所述第二评价值中小于等于预设的第二评价值阈值的所述第二评价值的第二个数,μ0为预设的个数阈值,and为且,else为其它;
获取预设的空白数据库,若所述评价指数大于等于预设的评价指数阈值,提取所述触发词的第七特征以及与所述触发词对应的全部所述关联触发词第八特征,将所述第七特征和所述第八特征存入所述空白数据库;
当所述触发词集合中需要存入所述空白数据库的所述触发词的所述第七特征以及对应全部所述关联触发词的所述第八特征均存入所述空白数据库后,将所述空白数据库作为触发特征数据库,完成建立。
CN202110763152.7A 2021-07-06 2021-07-06 在线客服场景下的文本内容敏感词过滤替换的方法及系统 Active CN113407658B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110763152.7A CN113407658B (zh) 2021-07-06 2021-07-06 在线客服场景下的文本内容敏感词过滤替换的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110763152.7A CN113407658B (zh) 2021-07-06 2021-07-06 在线客服场景下的文本内容敏感词过滤替换的方法及系统

Publications (2)

Publication Number Publication Date
CN113407658A CN113407658A (zh) 2021-09-17
CN113407658B true CN113407658B (zh) 2021-12-21

Family

ID=77685321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110763152.7A Active CN113407658B (zh) 2021-07-06 2021-07-06 在线客服场景下的文本内容敏感词过滤替换的方法及系统

Country Status (1)

Country Link
CN (1) CN113407658B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118013963B (zh) * 2024-04-09 2024-06-21 四川易景智能终端有限公司 敏感词的识别和替换方法及其装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8468244B2 (en) * 2007-01-05 2013-06-18 Digital Doors, Inc. Digital information infrastructure and method for security designated data and with granular data stores
US8706709B2 (en) * 2009-01-15 2014-04-22 Mcafee, Inc. System and method for intelligent term grouping
CN104572619A (zh) * 2014-12-31 2015-04-29 天津市招财猫信息技术有限公司 智能机器人交互系统在投融资领域的应用
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN109446529A (zh) * 2018-11-05 2019-03-08 用友网络科技股份有限公司 一种基于确定有穷自动机的敏感词检测方法和系统
CN111368535B (zh) * 2018-12-26 2024-01-16 珠海金山数字网络科技有限公司 一种敏感词识别方法、装置及设备
CN111914057A (zh) * 2020-06-01 2020-11-10 杭州城市大数据运营有限公司 客服系统敏感词检测过滤方法和装置
CN112784016B (zh) * 2021-01-27 2024-06-07 上海连尚网络科技有限公司 一种检测言论信息的方法与设备

Also Published As

Publication number Publication date
CN113407658A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN111222305A (zh) 一种信息结构化方法和装置
US20040059697A1 (en) Feature selection for two-class classification systems
CN113505586A (zh) 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
AU2019382095A1 (en) Automated electronic mail assistant
EP0750266A1 (en) Document classification unit and document retrieval unit
CN105893615B (zh) 基于手机取证数据的机主特征属性挖掘方法及其系统
CN108924371B (zh) 电力客服过程中通过来电号码识别户号的方法
CN111259130B (zh) 用于在对话中提供答复语句的方法及装置
CN113407658B (zh) 在线客服场景下的文本内容敏感词过滤替换的方法及系统
CN115880120B (zh) 一种在线政务服务系统及服务方法
CN107729337B (zh) 事件的监测方法和装置
CN115759640A (zh) 一种智慧城市的公共服务信息处理系统及方法
CN113065070A (zh) 一种移动互联网信息搜索检索智能排序方法、系统、设备和计算机存储介质
CN112507176A (zh) 域名侵权的自动化判定方法、装置、电子设备和存储介质
CN111783456A (zh) 一种利用语义分析技术的舆情分析方法
CN112035449A (zh) 数据处理方法及装置、计算机设备、存储介质
CN109740147B (zh) 一种大数量人才简历去重匹配分析方法
CN113961549A (zh) 基于数据仓库的医疗数据整合方法及系统
CN111754131A (zh) 企业情报动态监控方法、设备及介质
CN116501844A (zh) 语音关键词检索方法及系统
CN113177061B (zh) 一种搜索方法、装置和电子设备
CN113095073B (zh) 语料标签生成方法、装置、计算机设备和存储介质
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
CN110378560A (zh) 仲裁员数据筛选方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant