CN107193930A - 一种网站敏感词屏蔽方法 - Google Patents
一种网站敏感词屏蔽方法 Download PDFInfo
- Publication number
- CN107193930A CN107193930A CN201710349658.7A CN201710349658A CN107193930A CN 107193930 A CN107193930 A CN 107193930A CN 201710349658 A CN201710349658 A CN 201710349658A CN 107193930 A CN107193930 A CN 107193930A
- Authority
- CN
- China
- Prior art keywords
- concept
- word
- similarity
- website
- msub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种网站敏感词屏蔽方法,抓取网站上的文字信息,将网站上的文字信息作为第一词语,将预设敏感词数据库中的词语作为第二词语,分别计算第一词语与第二词语的词语相似度,并将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功,若匹配成功,则对第一词语进行屏蔽处理。本发明中,在进行数据匹配时要对词语进行拆分,形成概念集合,而概念集合中的概念可以最大程度的涵盖词语的本质含义,所以从概念的粒度对词语进行匹配,可以有效的提高匹配的精确度,因此可以取得较佳的敏感词屏蔽效果。
Description
技术领域
本发明数据处理领域,尤其涉及一种网站敏感词屏蔽方法。
技术领域
在现在的网络通信或数据处理过程中,常常会产生对两个词语进行相似度匹配的需求。
现有技术主要采用的匹配方式为字面含义的匹配,通过相同或近似的字来判断词语是否匹配,例如“接近”和“靠近”,由于都具有“近”这个字,系统会判断这两个词匹配度较高。
但是,文字的内涵博大精深,仅仅依靠字面含义进行匹配经常容易出现错误,从而严重影响了匹配精确度。
发明内容
本发明提供了一种网站敏感词屏蔽方法。
一种网站敏感词屏蔽方法,其中,所述方法包括:
抓取网站文字信息,对所述文字信息进行分组,并将分组后得到的各个分词认定为第一词语;获取预设敏感词数据库中的分词,将敏感词数据库中存储的各个分词认定为第二词语;
依次对各个所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,同时,依次对各个所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;
逐个计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;
将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度;
根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功;
若匹配成功,则对网站上匹配成功的所述第一词语进行屏蔽处理。
可选的,所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括:
计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度;
计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度,所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原;
计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度;
计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度;
根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。
可选的,所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括:
按照如下公式计算所述第一相似度Sim1(V1,V2):
其中,所述(d+α)表示两个义原,d是和在义原层次体系中的路径长度,α为常数参数。
可选的,计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括:
1)将第一概念与第二概念的语义表达式的所有独立义原任意配对,计算两两独立义原相似度;
2)将相似度取值最大的一对归为一组;
3)对剩余的独立义原两两执行步骤2),直至所有独立义原都完成分组;
4)对各组的相似度计算平均值作为所述第二相似度。
可选的,所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括:
按照如下公式计算所述概念相似度Sim(Si,Tj):
可选的,在所述抓取网站文字信息的步骤中还包括:
每隔预定时间获取网站首页的文字信息,以及获取与首页相链接的第一层网页文字信息和与首页相链接的第二层网页文字信息。
可选的,在抓取网站文字信息,对所述文字信息进行分组后,还包括步骤:
将分组后得到的各个分词保存到待检测数组中;
判断待检测数组中是否含有重复的分词,若有,则仅仅保留第一次出现的分词。
可选的,在上述步骤之后还包括:
使用预定字符替换被屏蔽的第一词语在网站上显示。
本发明公开了一种网站敏感词屏蔽方法,通过抓取网站上的文字信息,将网站上的文字信息作为第一词语,将预设敏感词数据库中的词语作为第二词语,依次对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,及依次对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度;根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功,若匹配成功,则对第一词语进行屏蔽处理。本发明中,在进行数据匹配时要对词语进行拆分,形成概念集合,而概念集合中的概念可以最大程度的涵盖词语的本质含义,所以从概念的粒度对词语进行匹配,可以有效的提高匹配的精确度,因此可以取得较佳的网站敏感词屏蔽效果。
附图说明
图1为本发明提供的网站敏感词屏蔽方法的流程示意图。
具体实施方式
为了使本领域的技术人员更好的理解本发明的技术方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
Hownet中,对实词的概念描述由以下三种形式的描述式组成:
(1)独立义原描述式:由“基本义原”或“(具体词)”表示;
(2)关系义原描述式:由“关系义原=基本义原”或“关系义原=(具体词)”或者“(关系义原=具体词)”来表示,其中关系义原是指包含“EventRole|动态角色”和“EventFeatures|动态属性”这两类的义原;
(3)符号义原描述式:由“关系符号基本义原”或者“关系符号(具体词)”表示,其中关系符号包括“#、%、$、*、+、&、@、?、!”,其各自代表的关系不再赘述。
在实际应用中,每一个概念由多个义原组成,义原是最基本的、不易于再分割的意义的最小单位。例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但也可以把它看作为一个义原。
基于上述词语相似度的理论,在进行网站敏感词匹配时,本发明提供了一种网站敏感词屏蔽方法,具体的,如图1所示,本发明网站敏感词屏蔽方法流程包括:
101、抓取网站文字信息,对所述文字信息进行分组,并将分组后得到的各个分词认定为第一词语;获取预设敏感词数据库中的分词,将敏感词数据库中存储的各个分词认定为第二词语。
首先获取网站的文字信息,对获取的文字信息中对每个句子进行分组,得到文字信息中的每个分词,并将得到的每个分词认定为第一分词。
在进行本步骤之前,预先建立了敏感词数据库,其中存储有多个网络中不宜出现的敏感词。为了增加敏感词屏蔽的准确性,所述敏感词数据库可以不断的更新,或者不仅保存有敏感词和敏感词相类似或者语义相同的分词也均有存储。将敏感词数据库中存储的分词认定为第二分词。
102、依次对各个所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,同时,依次对各个所述第二词语进行概念拆分得到包含若干个概念的第二概念集合。
针对上述步骤中分组出的多个分词,依次对每个第一词语进行概念拆分,得到每个第一词语所包含的若干个概念的第一概念集合。
依次对第二词语进行概念拆分,得到每个第二词语所包含的若干个概念的第二概念集合。
103、逐个计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念。
104、将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度,并根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。
105、若匹配成功,则对网站上匹配成功的第一词语进行屏蔽处理。
本发明中首先抓取网站上的文字信息,获取到待检测网站上的全部文字信息,然后将文字信息中的每一个句子都进行分组,
所有的概念都可以分解成各种各样的义原。同时也应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。
通过对义原和概念的定义,就可以对两个词语的相似度进行计算,例如对于词语X1和词语X2,如果X1有n个概念[S1,S2,…,Sn],X2有m个概念[T1,T2,…,Tm],X1和X2的相似度Sim(X1,X2)为各个概念的相似度的最大值:
因此,为了计算得到X1和X2的相似度Sim(X1,X2),则需要计算每两个概念之间的相似度。
计算两个概念之间的相似度则需要通过多个方面来综合计算:
(1)第一独立义原描述式:
因为所有的概念都最终归结于用义原来表示,所以义原的相似度计算是概念相似度的基础。由于所有的义原根据上下位关系构成树状的义原层次体系,可以简单的通过语义距离计算相似度。
用Sim1(V1,V2)表示两个概念的这部分相似度,具体就是两个义原的相似度,具体计算公式如下:
其中(d+α)表示两个义原,d是和在义原层次体系中的路径长度。α是一个可调节的参数,在基于Hownet的词汇语义相似度计算方法中可以设定α的取值,例如:α=0.5。
(2)其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原,用Sim2(V1,V2)表示两个概念的这部分相似度。
本发明中具体计算两个分词的某一个概念之间的相似度的步骤如下:
a、先把两个表达式的所有独立义原任意配对,计算两两义原相似度;
b、取值最大的一对归为一组;
c、对剩下的独立义原两两相似度执行第b步。如此反复,直到所有都完成分组。任何义原与空值的相似度定义为常数δ,例如:δ=0.2;
d、最后求平均值。
(3)关系义原描述式:语义表达式中所有的关系义原,用Sim3(V1,V2)表示两个概念的这部分相似度,把关系义原相同的表达式分为一组,计算相似度,最后求平均值。
(4)符号义原描述式:语义表达式中所有的符号义原,用Sim4(V1,V2)表示两个概念的这部分相似度,把关系符号相同的表达式分为一组,计算相似度,最后求平均值。
综上所述,两个概念的相似度计算方法如公式(3)所示。
将根据上述公式(3)计算出的相似度与预设阈值进行比对,若超过,则判定第一词语与第二词语相匹配,否则判定第一词语与第二词语不匹配。所述预设阈值可以设置为90%以上,或者80%以上,可以由网站管理者自定义设置。
若第一词语与第二词语相匹配,则认为第一词语为敏感词,在网站中将第一词语进行屏蔽显示。
具体的,在网站中屏蔽显示可以使用预定字符替换被屏蔽的第一词语在网站上显示。所述预定字符可以为:*号,也可以为#号,可以根据网站开发者的喜好自定义设置。
为了更全面的对网站中的敏感次进行屏蔽,较佳的,在所述抓取网站文字信息的步骤中还包括:
每隔预定时间获取网站首页的文字信息,以及获取与首页相链接的第一层网页文字信息和与首页相链接的第二层网页文字信息。
当然为了实现更好的对网站上的文字信息进行敏感词屏蔽,可以设置每隔预定时间对网站中的文字信息进行全面敏感词检测,可以设置当接收到新的更新文字信息时,实时对新更新的文字信息进行敏感词检测,以及将人工检测相结合的方式,达到更好的检测效果。
为了避免每次进行检测敏感词时数据处理量过大,较佳的,在抓取网站文字信息,对所述文字信息进行分组后,还包括步骤:
将分组后得到的各个分词保存到待检测数组中;
判断待检测数组中是否含有重复的分词,若有,则仅仅保留第一次出现的分词。
上述步骤中即是将待检测是否为敏感词的第一词语进行归一化处理,避免对同一个词语多次计算与数据库中第二分词的相似度,增加不必要的运算量。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种网站敏感词屏蔽方法,其特征在于,所述方法包括:
抓取网站文字信息,对所述文字信息进行分组,并将分组后得到的各个分词认定为第一词语;获取预设敏感词数据库中的分词,将敏感词数据库中存储的各个分词认定为第二词语;
依次对各个所述第一词语进行概念拆分得到包含若干个概念的第一概念集合,同时,依次对各个所述第二词语进行概念拆分得到包含若干个概念的第二概念集合;
逐个计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度,所述第一概念为所述第一概念集合中的任一概念,所述第二概念为所述第二概念集合中的任一概念;
将计算得到的各概念相似度中的最大值作为所述第一词语与所述第二词语之间的词语相似度,并根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功;
若匹配成功,则对网站上匹配成功的所述第一词语进行屏蔽处理。
2.根据权利要求1所述的网站敏感词屏蔽方法,其特征在于,所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括:
计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度;
计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度,所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原;
计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度;
计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度;
根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。
3.根据权利要求2所述的网站敏感词屏蔽方法,其特征在于,所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括:
按照如下公式计算所述第一相似度Sim1(V1,V2):
<mrow>
<msub>
<mi>Sim</mi>
<mn>1</mn>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>V</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mfrac>
<mi>&alpha;</mi>
<mrow>
<mi>d</mi>
<mo>+</mo>
<mi>&alpha;</mi>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
其中,所述(d+α)表示两个义原,d是和在义原层次体系中的路径长度,α为常数参数。
4.根据权利要求3所述的网站敏感词屏蔽方法,其特征在于,计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括:
1)将第一概念与第二概念的语义表达式的所有独立义原任意配对,计算两两独立义原相似度;
2)将相似度取值最大的一对归为一组;
3)对剩余的独立义原两两执行步骤2),直至所有独立义原都完成分组;
4)对各组的相似度计算平均值作为所述第二相似度。
5.根据权利要求4所述的网站敏感词屏蔽方法,其特征在于,所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括:
按照如下公式计算所述概念相似度Sim(Si,Tj):
<mrow>
<mi>S</mi>
<mi>i</mi>
<mi>m</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>S</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>T</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<munderover>
<mo>&Sigma;</mo>
<mrow>
<mi>x</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mn>4</mn>
</munderover>
<msub>
<mi>&beta;</mi>
<mi>x</mi>
</msub>
<munderover>
<mo>&Pi;</mo>
<mrow>
<mi>y</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>x</mi>
</munderover>
<msub>
<mi>Sim</mi>
<mi>y</mi>
</msub>
<mrow>
<mo>(</mo>
<msub>
<mi>V</mi>
<mn>1</mn>
</msub>
<mo>,</mo>
<msub>
<mi>V</mi>
<mn>2</mn>
</msub>
<mo>)</mo>
</mrow>
<mo>.</mo>
</mrow>
6.根据权利要求1所述的网站敏感词屏蔽方法,其特征在于,在所述抓取网站文字信息的步骤中还包括:
每隔预定时间获取网站首页的文字信息,以及获取与首页相链接的第一层网页文字信息和与首页相链接的第二层网页文字信息。
7.根据权利要求6所述的网站敏感词屏蔽方法,其特征在于,在抓取网站文字信息,对所述文字信息进行分组后,还包括步骤:
将分组后得到的各个分词保存到待检测数组中;
判断待检测数组中是否含有重复的分词,若有,则仅仅保留第一次出现的分词。
8.根据权利要求6所述的网站敏感词屏蔽方法,其特征在于,还包括步骤:
使用预定字符替换被屏蔽的第一词语在网站上显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349658.7A CN107193930A (zh) | 2017-05-17 | 2017-05-17 | 一种网站敏感词屏蔽方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710349658.7A CN107193930A (zh) | 2017-05-17 | 2017-05-17 | 一种网站敏感词屏蔽方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107193930A true CN107193930A (zh) | 2017-09-22 |
Family
ID=59872798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710349658.7A Pending CN107193930A (zh) | 2017-05-17 | 2017-05-17 | 一种网站敏感词屏蔽方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107193930A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170806A (zh) * | 2017-12-28 | 2018-06-15 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN110442863A (zh) * | 2019-07-16 | 2019-11-12 | 深圳供电局有限公司 | 一种短文本语义相似度计算方法及其系统、介质 |
CN110633356A (zh) * | 2019-09-04 | 2019-12-31 | 广州市巴图鲁信息科技有限公司 | 一种词语相似度计算方法、装置以及存储介质 |
CN114881615A (zh) * | 2022-06-06 | 2022-08-09 | 山东浪潮爱购云链信息科技有限公司 | 一种采购平台中论坛数据交互的方法、设备 |
CN115352361A (zh) * | 2022-08-24 | 2022-11-18 | 中国第一汽车股份有限公司 | 一种车辆用隔窗对话方法、装置和车辆 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182464A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义的文本检索方法 |
CN105468584A (zh) * | 2015-12-31 | 2016-04-06 | 武汉鸿瑞达信息技术有限公司 | 文本中不良文字信息的过滤方法及过滤系统 |
WO2016173449A1 (zh) * | 2015-04-28 | 2016-11-03 | 阿里巴巴集团控股有限公司 | 群组消息处理方法及装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
-
2017
- 2017-05-17 CN CN201710349658.7A patent/CN107193930A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182464A (zh) * | 2014-07-21 | 2014-12-03 | 安徽华贞信息科技有限公司 | 一种基于语义的文本检索方法 |
WO2016173449A1 (zh) * | 2015-04-28 | 2016-11-03 | 阿里巴巴集团控股有限公司 | 群组消息处理方法及装置 |
CN105468584A (zh) * | 2015-12-31 | 2016-04-06 | 武汉鸿瑞达信息技术有限公司 | 文本中不良文字信息的过滤方法及过滤系统 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
Non-Patent Citations (1)
Title |
---|
金博等: ""基于语义理解的文本相似度算法"", 《大连理工大学学报》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170806A (zh) * | 2017-12-28 | 2018-06-15 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN108170806B (zh) * | 2017-12-28 | 2020-11-20 | 东软集团股份有限公司 | 敏感词检测过滤方法、装置和计算机设备 |
CN110442863A (zh) * | 2019-07-16 | 2019-11-12 | 深圳供电局有限公司 | 一种短文本语义相似度计算方法及其系统、介质 |
CN110442863B (zh) * | 2019-07-16 | 2023-05-05 | 深圳供电局有限公司 | 一种短文本语义相似度计算方法及其系统、介质 |
CN110633356A (zh) * | 2019-09-04 | 2019-12-31 | 广州市巴图鲁信息科技有限公司 | 一种词语相似度计算方法、装置以及存储介质 |
CN110633356B (zh) * | 2019-09-04 | 2022-05-20 | 广州市巴图鲁信息科技有限公司 | 一种词语相似度计算方法、装置以及存储介质 |
CN114881615A (zh) * | 2022-06-06 | 2022-08-09 | 山东浪潮爱购云链信息科技有限公司 | 一种采购平台中论坛数据交互的方法、设备 |
CN115352361A (zh) * | 2022-08-24 | 2022-11-18 | 中国第一汽车股份有限公司 | 一种车辆用隔窗对话方法、装置和车辆 |
WO2024040998A1 (zh) * | 2022-08-24 | 2024-02-29 | 中国第一汽车股份有限公司 | 一种车辆用隔窗对话方法、装置和车辆 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107193930A (zh) | 一种网站敏感词屏蔽方法 | |
US10726446B2 (en) | Method and apparatus for pushing information | |
CN105183781B (zh) | 信息推荐方法及装置 | |
CN106886518B (zh) | 一种微博账号分类的方法 | |
Fleischhacker et al. | Detecting errors in numerical linked data using cross-checked outlier detection | |
WO2019041521A1 (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
CN106250513A (zh) | 一种基于事件建模的事件个性化分类方法及系统 | |
CN106168953B (zh) | 面向弱关系社交网络的博文推荐方法 | |
US9256593B2 (en) | Identifying product references in user-generated content | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
CN110263248A (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN107239512B (zh) | 一种结合评论关系网络图的微博垃圾评论识别方法 | |
CN106970912A (zh) | 中文语句相似度计算方法、计算装置以及计算机存储介质 | |
CN109815386B (zh) | 一种基于用户画像的构建方法、装置及存储介质 | |
CN109902179A (zh) | 基于自然语言处理的筛选电商垃圾评论的方法 | |
CN107437026B (zh) | 一种基于广告网络拓扑的恶意网页广告检测方法 | |
CN103605738A (zh) | 网页访问数据统计方法及装置 | |
CN103312887B (zh) | 一种手机应用篡改识别系统、方法及装置 | |
CN103886067A (zh) | 使用标签隐含主题进行图书推荐的方法 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN107145523A (zh) | 基于迭代匹配的大型异构知识库对齐方法 | |
CN104850647A (zh) | 一种微博团体的发现方法及装置 | |
CN104408180A (zh) | 内存数据的查询方法和装置 | |
CN106991090A (zh) | 舆情事件实体的分析方法及装置 | |
Hong et al. | CNN‐based malicious user detection in social networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1242805 Country of ref document: HK |
|
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170922 |