CN103678651B - 一种敏感词查找方法及装置 - Google Patents

一种敏感词查找方法及装置 Download PDF

Info

Publication number
CN103678651B
CN103678651B CN201310717063.4A CN201310717063A CN103678651B CN 103678651 B CN103678651 B CN 103678651B CN 201310717063 A CN201310717063 A CN 201310717063A CN 103678651 B CN103678651 B CN 103678651B
Authority
CN
China
Prior art keywords
character string
character
sensitive
sensitive word
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310717063.4A
Other languages
English (en)
Other versions
CN103678651A (zh
Inventor
何旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TCL Corp
Original Assignee
TCL Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TCL Corp filed Critical TCL Corp
Priority to CN201310717063.4A priority Critical patent/CN103678651B/zh
Publication of CN103678651A publication Critical patent/CN103678651A/zh
Application granted granted Critical
Publication of CN103678651B publication Critical patent/CN103678651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明适用于信息安全技术领域,提供了一种敏感词查找方法,所述方法包括:获取文本信息,所述文本信息包含N个字符,N为大于0的整数;依次判断所述文本信息中分别以第K个字符为开头,第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数;如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串,M为大于等于0并且小于等于N的整数,本发明对于文本信息中敏感词交叠的情况,能够有效地避免遗漏标记敏感词的问题。

Description

一种敏感词查找方法及装置
技术领域
本发明属于信息安全技术领域,尤其涉及一种敏感词查找方法及装置。
背景技术
在互联网时代,网络为各种信息提供便捷的传播方式,也不可避免地带来了一些负面影响,如虚假新闻、色情广告、危害公共安全的言论和散布他人的个人隐私等,因此,对互联网中的信息进行筛选后才允许发布,对敏感词进行查找和过滤,以净化网络环境显得必不可少。
现有的敏感词查找方法对于敏感词交叠的情况,不能准确有效地查找到文本信息中的所有敏感词,容易遗漏。例如设置的敏感词为“轰炸”和“炸机”,进行敏感词查找的文本为“天上有一架轰炸机”,其中“轰炸机”为两个敏感词交叠而成,现有的敏感词查找方法只能在上述文本中查找到“轰炸”,然后从“机”开始往下查找,这样将查找不到“炸机”这个敏感词,造成遗漏。
发明内容
本发明的目的在于提供一种敏感词查找方法,旨在解决对敏感词交叠的情况现有的查找方法容易出现遗漏的问题。
本发明是这样实现的,一种敏感词查找方法,包括:
获取文本信息,所述文本信息包含N个字符,N为大于0的整数;
依次判断所述文本信息中分别以第K个字符为开头,第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数;
如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串,M为大于等于0并且小于等于N的整数。
本发明的另一目的在于提供一种敏感词查找装置,包括:
获取单元,用于获取文本信息,所述文本信息包含N个字符,N为大于0的整数;
匹配单元,用于依次判断所述文本信息中分别以第K个字符为开头,第N个字符结尾的的N个字符串是否与预设的敏感词库中的敏感词匹配其中K为1至N的整数;
标记单元,用于如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串,M为大于等于0并且小于等于N的整数。
在本发明中,获取文本信息,文本信息包含N个字符,依次判断文本信息中分别以第K个字符为开头,第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数,如果在该N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记该M个字符串,对于文本信息中敏感词交叠的情况,能够有效地避免遗漏标记敏感词的问题。
附图说明
图1是本发明实施例一提供的敏感词查找方法的实现流程图;
图2是图1中步骤S102的具体实现流程图;
图3是图1的具体程序流程图;
图4是本发明实施例二提供的敏感词查找装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,获取文本信息,文本信息包含N个字符,依次判断文本信息中分别以第K个字符为开头,第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数,如果在该N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记该M个字符串,对于文本信息中敏感词交叠的情况,能够有效地避免遗漏标记敏感词的问题。
图1示出了本发明实施例一提供的敏感词查找方法的实现流程,详述如下:
在步骤S101中,获取文本信息,所述文本信息包含N个字符,N为大于0的整数。
在本发明实施例中,文本信息中包含若干个字符,字符可以是文字和标点符号等,获取文本信息的方式包括但不限于接收输入的文字和文章、搜索到网页链接和新闻等。
在步骤S102中,依次判断所述文本信息中分别以第K个字符为开头,第N个字符为结尾的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数。
在获取到的文本信息中,可能会出现敏感词交叠的情况。如预设的敏感词库中包含两个敏感词:“核武器”和“武器装备”,在文本信息中的一段文字为“核武器装备好了。”,出现两个敏感词交叠。
对于上述情况,为了在查找敏感词时不会造成遗漏,应依次将每一个字符为开头及其后续的字符形成的字符串与敏感词库中的敏感词进行匹配,遍历所有的可能。如文本“核武器装备好了。”中,以“核”为开头的字符串为“核武器装备好了。”、以“武”为开头的字符串为“武器装备好了。”、以“器”为开头的字符串为“器装备好了。”,以此类推,共有8个字符串,依次将这8个字符串与敏感词库中的敏感词进行匹配。匹配方式可以为:将字符串与敏感词进行逐字匹配,直到匹配到最长的敏感词为止。匹配方式还可以是逐字匹配到最短敏感词等等,匹配方式在此不做限定。
作为本发明的一个实施例,如图2所示,步骤S102具体为:
在S201中,判断以第一字符位置为开头,第N个字符结尾的第一字符串是否与预设的敏感词库中的敏感词匹配。
在S202中,判断以第二字符位置为开头,第N个字符结尾的第二字符串是否与预设的敏感词库中的敏感词匹配,所述第二字符位置为所述第一字符位置的下一个字符位置。
对第一字符串和第二字符串的判断为前后两次依次的判断,判断结果有4种组合,分别为第一字符串和第二字符串均不匹配、第一字符串不匹配而第二字符串匹配、第一字符串匹配而第二字符串不匹配、第一字符串和第二字符串均匹配。对于不同的判断结果,标记的方式不同,标记方式在步骤S103中详述。
在步骤S103中,如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串,M为大于等于0并且小于等于N的整数。
对于上述步骤的第二种判断结果,所述第一字符串与预设的敏感词库中的敏感词不匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配,所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串包括:标记所述第二字符串的起始位置和结束位置。
对于上述步骤的第三种判断结果,所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词不匹配,所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串包括:标记所述第一字符串的起始位置和结束位置。
对于上述步骤的第四种判断结果,所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配,所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串包括:标记所述第一字符串的起始位置和所述第二字符串的结束位置。
仍然以上述文本“核武器装备好了。”为例,其中字符与字符位置的对应关系如表一所示:
字符位置 1 2 3 4 5 6 7 8
文本信息
表一
敏感词库中包含两个敏感词:“核武器”和“武器装备”,第一字符位置为1,第一字符串为“核武器装备好了。”,第二字符位置为2,第二字符串为“武器装备好了。”。
第一字符串中开头的“核武器”为敏感词,即第一字符串匹配成功,第二字符串中开头的“武器装备”为敏感词,即第二字符串也匹配成功,出现了敏感词交叠的情况,为上述第四种判断结果,将第一字符串中敏感词的起始位置1和第二字符串中敏感词的结束位置5标记出来,这样不会造成遗漏。
对于上述第二种和第三种判断结果,只有其中的一个字符串匹配成功,仅标记匹配成功的字符串中敏感词的起始位置和结束位置。对于上述第一种判断结果,不做标记。
从文本信息开头的第一次判断,即第一字符位置为1时,如果第一字符串匹配成功,则标记敏感词的起始位置和结束位置,然后再判断第二字符串,判断后的标记方式如上所述。
判断第二字符串后,第一字符位置后移,例如,上述第一字符位置后移之后,第一字符位置变为2,第一字符串变为“武器装备好了。”,第二字符位置为3,第二字符串为“器装备好了。”,此时,前述步骤已完成对第一字符串的判断,继续判断第二字符串,如果第二字符串匹配不成功则不做标记;如果第二字符串匹配成功并且第二字符位置位于已标记的敏感词的结束位置之前,标记时仅标记匹配到的敏感词的结束位置。以此循环,直至遍历完整个文本。
以下结合计算机的程序流程图进一步阐释本发明实施例的敏感词查找方法,如图3所示,程序的流程为:判断是否遍历完整个文本301,如果已遍历完,则程序结束,如果未遍历完,从当前字符位置开始匹配302,判断是否匹配到敏感词303,如果未匹配到敏感词,当前字符位置后移304,如果匹配到敏感词,判断当前字符位置是否在上一次标记的敏感词结束位置之前305,判断结果为否,标记当前匹配到的敏感词的起始位置和结束位置306,判断结果为是,标记当前匹配到的敏感词的结束位置307,然后当前字符位置后移304。
仍然沿用上述文本“核武器装备好了。”为例,具体为:
从当前字符位置1开始匹配,字符串为“核武器装备好了。”,并且该字符串匹配成功,此时,标记其中敏感词的起始位置1和结束位置3。
当前字符位置后移到2,此时第一字符位置为1,第一字符串为“核武器装备好了。”,第二字符位置为2,第二字符串为“武器装备好了。”。第一字符串的匹配结果已从前面的步骤得出,第二字符串匹配成功,并且当前字符位置2在上一次标记的敏感词的结束位置3之前,标记第二字符串匹配到的敏感词的结束位置5。对于这种敏感词交叠的情况,此步骤标记后的敏感词起始位置为1,结束位置为5。
当前字符位置后移到3,此时第一字符位置为2,第一字符串为“武器装备好了。”,第二字符位置为3,第二字符串为“器装备好了。”,第一字符串匹配成功,第二字符串匹配不成功,第一字符串匹配到的敏感词已在上述步骤标记,继续往下匹配。
当前字符位置后移到4,此时第一字符位置为3,第一字符串为“器装备好了。”,第二字符位置为4,第二字符串为“装备好了。”,第一字符串匹配不成功,第二字符串匹配不成功,不做标记。
当前字符位置继续后移,直至遍历完整个文本。上述例子中出现了第一字符串和第二字符串均匹配、第一字符串和第二字符串均不匹配、第一字符串匹配而第二字符串不匹配这3种情况,对于第一字符串不匹配而第二字符串匹配的情况,如图3所示的流程图仍然适用。
在本发明实施例中,获取文本信息,文本信息包含N个字符,依次判断文本信息中分别以第K个字符为开头,第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数,如果在该N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记该M个字符串,对于文本信息中敏感词交叠的情况,能够有效地避免遗漏标记敏感词的问题。
图4示出了本发明实施例二提供的敏感词查找装置的结构框图,该装置可以位于需要进行敏感词过滤的系统和需要对敏感词作突出显示的系统中,用于执行图1至图3描述的敏感词查找方法。为了便于说明,仅示出了与本实施例相关的部分。
参照图4,该装置包括:
获取单元41,获取文本信息,文本信息包含N个字符,N为大于0的整数。
匹配单元42,依次判断文本信息中分别以第K个字符为开头,第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数。
标记单元43,如果在N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串,M为大于等于0并且小于等于N的整数。
可选地,匹配单元42包括:
第一判断子单元,判断以第一字符位置为开头,第N个字符结尾的第一字符串是否与预设的敏感词库中的敏感词匹配。
第二判断子单元,判断以第二字符位置为开头,第N个字符结尾的第二字符串是否与预设的敏感词库中的敏感词匹配,第二字符位置为所述第一字符位置的下一个字符位置。
可选地,如果第一字符串与预设的敏感词库中的敏感词不匹配并且第二字符串与预设的敏感词库中的敏感词匹配,标记单元43具体用于标记第二字符串的起始位置和结束位置。
可选地,如果第一字符串与预设的敏感词库中的敏感词匹配并且第二字符串与预设的敏感词库中的敏感词不匹配,标记单元43具体用于标记第一字符串的起始位置和结束位置。
可选地,如果第一字符串与预设的敏感词库中的敏感词匹配并且第二字符串与预设的敏感词库中的敏感词匹配,标记单元43具体用于第一字符串的起始位置和第二字符串的结束位置。
在本发明实施例中,获取文本信息,文本信息包含N个字符,依次判断文本信息中分别以第K个字符为开头,第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数,如果在该N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记该M个字符串,对于文本信息中敏感词交叠的情况,能够有效地避免遗漏标记敏感词的问题。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种敏感词查找方法,其特征在于,所述方法包括:
获取文本信息,所述文本信息包含N个字符,N为大于0的整数;
依次判断所述文本信息中分别以第K个字符为开头,第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数;其中,所述N个字符串具体包括:所述文本信息中每一个字符为开头及其后续的字符形成的字符串;
如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串,M为大于等于0并且小于等于N的整数。
2.如权利要求1所述的方法,其特征在于,所述依次判断所述文本信息中分别以第K个字符为开头,第N个字符结尾的N个字符串是否与预设的敏感词库中的敏感词匹配包括:
判断以第一字符位置为开头,第N个字符结尾的第一字符串是否与预设的敏感词库中的敏感词匹配;
判断以第二字符位置为开头,第N个字符结尾的第二字符串是否与预设的敏感词库中的敏感词匹配,所述第二字符位置为所述第一字符位置的下一个字符位置。
3.如权利要求2所述的方法,其特征在于,如果所述第一字符串与预设的敏感词库中的敏感词不匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配,
所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串包括:
标记所述第二字符串的起始位置和结束位置。
4.如权利要求2所述的方法,其特征在于,如果所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词不匹配,
所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串包括:
标记所述第一字符串的起始位置和结束位置。
5.如权利要求2所述的方法,其特征在于,如果所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配,
所述如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串包括:
标记所述第一字符串的起始位置和所述第二字符串的结束位置。
6.一种敏感词查找装置,其特征在于,所述装置包括:
获取单元,用于获取文本信息,所述文本信息包含N个字符,N为大于0的整数;
匹配单元,用于依次判断所述文本信息中分别以第K个字符为开头,第N个字符结尾的的N个字符串是否与预设的敏感词库中的敏感词匹配,其中K为1至N的整数;其中,所述N个字符串具体包括:所述文本信息中每一个字符为开头及其后续的字符形成的字符串;
标记单元,用于如果在所述N个字符串中有M个字符串与预设的敏感词库中的敏感词匹配,标记匹配成功的M个字符串,M为大于等于0并且小于等于N的整数。
7.如权利要求6所述的装置,其特征在于,所述匹配单元包括:
第一判断子单元,用于判断以第一字符位置为开头,第N个字符结尾的第一字符串是否与预设的敏感词库中的敏感词匹配;
第二判断子单元,用于判断以第二字符位置为开头,第N个字符结尾的第二字符串是否与预设的敏感词库中的敏感词匹配,所述第二字符位置为所述第一字符位置的下一个字符位置。
8.如权利要求7所述的装置,其特征在于,如果所述第一字符串与预设的敏感词库中的敏感词不匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配,
所述标记单元具体用于:标记所述第二字符串的起始位置和结束位置。
9.如权利要求7所述的装置,其特征在于,如果所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词不匹配,
所述标记单元具体用于:标记所述第一字符串的起始位置和结束位置。
10.如权利要求7所述的装置,其特征在于,如果所述第一字符串与预设的敏感词库中的敏感词匹配并且所述第二字符串与预设的敏感词库中的敏感词匹配,
所述标记单元具体用于:标记所述第一字符串的起始位置和所述第二字符串的结束位置。
CN201310717063.4A 2013-12-20 2013-12-20 一种敏感词查找方法及装置 Active CN103678651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310717063.4A CN103678651B (zh) 2013-12-20 2013-12-20 一种敏感词查找方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310717063.4A CN103678651B (zh) 2013-12-20 2013-12-20 一种敏感词查找方法及装置

Publications (2)

Publication Number Publication Date
CN103678651A CN103678651A (zh) 2014-03-26
CN103678651B true CN103678651B (zh) 2017-09-15

Family

ID=50316195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310717063.4A Active CN103678651B (zh) 2013-12-20 2013-12-20 一种敏感词查找方法及装置

Country Status (1)

Country Link
CN (1) CN103678651B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105320659A (zh) * 2014-06-04 2016-02-10 同程网络科技股份有限公司 敏感词过滤方法
CN107402940B (zh) * 2016-05-20 2020-02-07 北京京东尚科信息技术有限公司 敏感词检索方法、装置及存储介质
CN106156642A (zh) * 2016-07-28 2016-11-23 宇龙计算机通信科技(深圳)有限公司 数据加密方法及装置
CN108536693A (zh) * 2017-03-02 2018-09-14 北京京东尚科信息技术有限公司 一种敏感词过滤方法、装置、电子设备、存储介质
CN107153692B (zh) * 2017-05-03 2021-02-19 上海上讯信息技术股份有限公司 一种字符串匹配的方法及设备
CN109492118B (zh) * 2018-10-31 2021-04-16 北京奇艺世纪科技有限公司 一种数据检测方法及检测装置
CN109657109A (zh) * 2018-11-23 2019-04-19 山东中创软件商用中间件股份有限公司 一种文档中指定单词查找方法、装置、设备以及存储介质
CN110502612A (zh) * 2019-08-08 2019-11-26 南京逸杰软件科技有限公司 一种基于黑名单智能识别的交通信息发布安全检测方法
CN110874398B (zh) * 2020-01-14 2020-06-02 广东博智林机器人有限公司 违禁词处理方法、装置、电子设备及存储介质
CN111540361B (zh) * 2020-03-26 2023-08-18 北京搜狗科技发展有限公司 一种语音处理方法、装置和介质
CN113239156B (zh) * 2021-06-04 2022-05-17 杭州网易智企科技有限公司 文本处理方法、装置、计算设备以及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010067734A (ko) * 2001-03-14 2001-07-13 금하연 인터넷상에서의 한자색인어를 병용한 한글검색장치 및그검색방법
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
CN102253988A (zh) * 2011-06-30 2011-11-23 北京新媒传信科技有限公司 网络文本服务中敏感词过滤的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010067734A (ko) * 2001-03-14 2001-07-13 금하연 인터넷상에서의 한자색인어를 병용한 한글검색장치 및그검색방법
CN102184188A (zh) * 2011-04-15 2011-09-14 百度在线网络技术(北京)有限公司 一种用于确定目标文本的敏感度的方法与设备
CN102253988A (zh) * 2011-06-30 2011-11-23 北京新媒传信科技有限公司 网络文本服务中敏感词过滤的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于N-grams短语的中文Web文本聚类及其预处理的研究;孙桂煌;《中国优秀硕士学位论文全文数据库 信息科技辑》;20111215;第8-50页 *

Also Published As

Publication number Publication date
CN103678651A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
CN103678651B (zh) 一种敏感词查找方法及装置
WO2018000998A1 (zh) 界面生成方法、装置和系统
CN105205080B (zh) 冗余文件清理方法、装置和系统
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
JP2014518419A5 (zh)
CN108255975B (zh) 模板构建方法、页面内容抓取方法及装置、介质及设备
CN107609098A (zh) 搜索方法及装置
CN103970765A (zh) 一种改错模型训练方法、装置和文本改错方法、装置
EP3057002A1 (en) Method, device, terminal and computer storage medium for realizing intelligent reading of a browser
CN105094775B (zh) 网页生成方法和装置
CN102486769A (zh) 文档目录处理方法和装置
CN106021383A (zh) 网页相似度计算方法及装置
CN108984650A (zh) 计算机可读记录介质及计算机设备
CN108268668A (zh) 一种基于话题多样性的文本数据观点摘要挖掘方法
US20150244661A1 (en) Method and apparatus for displaying rich text message on network platform, and computer storage medium
EP2896162A1 (en) Determining additional information associated with geographic location information
CN104809751B (zh) 生成事件组演化图的方法和装置
CN104423623A (zh) 一种选词处理方法及电子设备
CN104090869B (zh) 一种翻译网络信息的方法及翻译系统
JP6859504B2 (ja) データを抽出するための方法、デバイス及び端末デバイス
CN104050157A (zh) 歧义消解的方法和系统
CN106407288B (zh) 一种信息同步更新的方法及系统
CN108090123A (zh) 净化网络小说页面的方法与装置
CN104331475A (zh) 一种信息检测方法及装置
CN103984731B (zh) 微博环境下自适应话题追踪方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant