CN111221951B - 文本处理方法及装置 - Google Patents

文本处理方法及装置 Download PDF

Info

Publication number
CN111221951B
CN111221951B CN202010004138.4A CN202010004138A CN111221951B CN 111221951 B CN111221951 B CN 111221951B CN 202010004138 A CN202010004138 A CN 202010004138A CN 111221951 B CN111221951 B CN 111221951B
Authority
CN
China
Prior art keywords
character
sentence
intersection
keyword
index information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010004138.4A
Other languages
English (en)
Other versions
CN111221951A (zh
Inventor
杨明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010004138.4A priority Critical patent/CN111221951B/zh
Publication of CN111221951A publication Critical patent/CN111221951A/zh
Application granted granted Critical
Publication of CN111221951B publication Critical patent/CN111221951B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例提供一种文本处理方法及装置,该方法包括:获取第一句子的关键词和热点词,所述热点词为预设时段内使用频率大于第一阈值的词汇;根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符,所述关键词中的所述交集字符在所述第一句子中的索引、与所述热点词中的所述交集字符在所述第一句子中的索引相同;根据所述交集字符显示所述第一句子,所述交集字符的显示方式与所述第一句子中除所述交集字符外的其他字符的显示方式不同。本公开实施例能够迅速获取关键词和热点词在文本中的相互关系。

Description

文本处理方法及装置
技术领域
本公开实施例涉及信息处理技术领域,尤其涉及一种文本处理方法及装置。
背景技术
随着计算机技术和互联网技术的发展,大量的文本数据需要进行展示,其中,文本数据是指信息载体的数据信息。例如:文本数据可以为广告、文章等。
文本数据中通常包括关键词和热点词,其中,关键词为与文本数据中含义紧密相关的词汇,热点词为一定时期内的高频词汇。热点词和关键词之间可能互不相关,也可能具有交集,根据热点词和关键词之间的关系能够帮助用户快速抓取文本数据的关键信息。例如,在广告投放领域,根据广告文本中关键词和热点词的关系,有助于用户快速获取广告文本关键信息,进行广告文本的审核。因此文本数据中关键词和热点词的关系的快速获取具有重要的意义。
现有方案中,针对文本数据中的关键词和热点词的展示,通常是将文本数据中的关键词和热点词标写在文本数据的下方,用户需要根据标写的关键词和热点词,在文本数据中找到相应的位置,进而得到关键词和热点词的关系,过程较繁琐,且效率较低。
发明内容
本公开实施例提供一种文本处理方法及装置,以解决无法迅速获取关键词和热点词在文本中的相互关系的问题。
第一方面,本公开实施例提供一种文本处理方法,包括:
获取第一句子的关键词和热点词,所述热点词为预设时段内使用频率大于第一阈值的词汇;
根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符,所述关键词中的所述交集字符在所述第一句子中的索引、与所述热点词中的所述交集字符在所述第一句子中的索引相同;
根据所述交集字符显示所述第一句子,所述交集字符的显示方式与所述第一句子中除所述交集字符外的其他字符的显示方式不同。
在一种可能的实施方式中,所述第一索引信息包括所述关键词中每个字符在所述第一句子中的索引;
所述第二索引信息包括所述热点词中每个字符在所述第一句子中的索引。
在一种可能的实施方式中,根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符,包括:
在所述第一索引信息和所述第二索引信息中确定目标索引,所述第一索引信息和所述第二索引信息均包括所述目标索引;
将所述目标索引对应的字符确定为所述交集字符。
在一种可能的实施方式中,根据所述交集字符显示所述第一句子,包括:
确定所述交集字符的第一显示方式和非交集字符的第二显示方式,所述非交集字符为所述第一句子中除所述交集字符之外的其它字符;
按照所述第一显示方式显示所述交集字符;
按照所述第二显示方式显示所述非交集字符。
在一种可能的实施方式中,根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符之后,还包括:
在所述非交集字符中确定第一字符,所述第一字符为所述关键词中除所述交集字符之外的字符;
在所述非交集字符中确定第二字符,所述第二字符为所述热点词中除所述交集字符之外的字符。
在一种可能的实施方式中,根据所述交集字符显示所述第一句子,包括:
确定所述交集字符的第一显示方式,并按照所述第一显示方式显示所述交集字符;
确定所述第一字符的第二显示方式,并按照所述第二显示方式显示所述第一字符;
确定所述第二字符的第三显示方式,并按照所述第三显示方式显示所述第二字符;
确定第三字符的第四显示方式,并按照所述第四显示方式显示所述第三字符,所述第三字符为所述第一句子中除所述关键词和所述热点词之外的字符。
在一种可能的实施方式中,在根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符之前,所述方法还包括:
获取所述关键词中的每个字符的第一排列顺序以及所述热点词中的每个字符的第二排列顺序;
获取所述关键词中的每个字符在所述第一句子中的第一位置以及所述热点词中的每个字符在所述第一句子中的第二位置;
根据所述第一排列顺序和所述第一位置,确定所述第一索引信息;根据所述第二排列顺和所述第二位置,确定所述第二索引信息。
第二方面,本公开实施例提供一种文本处理装置,包括:
获取模块,用于获取第一句子的关键词和热点词,所述热点词为预设时段内使用频率大于第一阈值的词汇;
处理模块,用于根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符,所述关键词中的所述交集字符在所述第一句子中的索引、与所述热点词中的所述交集字符在所述第一句子中的索引相同;
显示模块,用于根据所述交集字符显示所述第一句子,所述交集字符的显示方式与所述第一句子中除所述交集字符外的其他字符的显示方式不同。
在一种可能的实施方式中,所述第一索引信息包括所述关键词中每个字符在所述第一句子中的索引;
所述第二索引信息包括所述热点词中每个字符在所述第一句子中的索引。
在一种可能的实施方式中,所述处理模块具体用于:
在所述第一索引信息和所述第二索引信息中确定目标索引,所述第一索引信息和所述第二索引信息均包括所述目标索引;
将所述目标索引对应的字符确定为所述交集字符。
在一种可能的实施方式中,所述显示模块具体用于:
确定所述交集字符的第一显示方式和非交集字符的第二显示方式,所述非交集字符为所述第一句子中除所述交集字符之外的其它字符;
按照所述第一显示方式显示所述交集字符;
按照所述第二显示方式显示所述非交集字符。
在一种可能的实施方式中,所处处理模块还用于:
在所述非交集字符中确定第一字符,所述第一字符为所述关键词中除所述交集字符之外的字符;
在所述非交集字符中确定第二字符,所述第二字符为所述热点词中除所述交集字符之外的字符。
在一种可能的实施方式中,所述显示模块具体用于:
确定所述交集字符的第一显示方式,并按照所述第一显示方式显示所述交集字符;
确定所述第一字符的第二显示方式,并按照所述第二显示方式显示所述第一字符;
确定所述第二字符的第三显示方式,并按照所述第三显示方式显示所述第二字符;
确定第三字符的第四显示方式,并按照所述第四显示方式显示所述第三字符,所述第三字符为所述第一句子中除所述关键词和所述热点词之外的字符。
在一种可能的实施方式中,所述处理模块还用于:
获取所述关键词中的每个字符的第一排列顺序以及所述热点词中的每个字符的第二排列顺序;
获取所述关键词中的每个字符在所述第一句子中的第一位置以及所述热点词中的每个字符在所述第一句子中的第二位置;
根据所述第一排列顺序和所述第一位置,确定所述第一索引信息;根据所述第二排列顺和所述第二位置,确定所述第二索引信息。
第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面任一项所述的文本处理方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的文本处理方法。
本公开实施例提供的文本处理方法及装置,针对第一句子,首先在第一句子中获取关键词和热点词,其中,关键词为最能够表达第一句子含义的词,热点词为预设时段内使用频率大于第一阈值的词汇,然后根据关键词在第一句子中的第一索引信息和热点词在第一句子中的第二索引信息,确定关键词和热点词中均包括的交集字符,最后根据交集字符显示第一句子,交集字符的显示方式与第一句子中除交集字符外的字符的显示方式不同。通过本公开实施例的方案,能够优化展示文本中的关键词和热点词的展示,由于交集字符与其他字符的显示方式不同,因此当关键词和热点词存在交集时,根据文本中各字符的显示方式能够快速获知关键词和热点词的关系。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的文本处理方法的应用场景示意图;
图2为本公开实施例提供的文本处理方法的流程示意图;
图3为本公开实施例提供的文本处理示意图;
图4为本公开又一实施例提供的文本处理方法的流程示意图;
图5为本公开实施例提供的获取第一索引信息和第二索引信息的流程示意图;
图6为本公开实施例提供的获取第一索引信息和第二索引信息的示意图;
图7A为本公开实施例提供的获取目标索引的示意图一;
图7B为本公开实施例提供的获取目标索引的示意图二;
图8为本公开实施例提供的确定非交集字符的示意图;
图9为本公开实施例提供的第一句子的显示示意图;
图10为本公开实施例提供的文本处理装置的结构示意图;
图11为本公开实施例提供的电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1为本公开实施例提供的文本处理方法的应用场景示意图,如图1所示,需要对用户要发表的文本进行审核。以广告投放领域为例,在一句广告词文本中,包括关键词和热点词,其中,不同的广告词文本中的关键词和热点词的关系可能各不相同。在对用户要投放的广告词文本进行审核时,关键词和热点词的相互关系为审核的一个指标,例如,当关键词和热点词具备交集时,该广告词文本可能会被判定为根据热点词对产品进行宣传,此时判定广告词文本审核不通过。
图1中示例了两个广告审核文本,分别是文本A和文本B。文本A和文本B的内容一致,均为“钻石恒久远,一颗永流传”。
在之前的文本A中,除了展示上述句子外,在句子后另起一行,分别示出了句子中的关键词“钻石”以及热点词“钻石”、“流传”。
根据文本A的示意,用户需要在句子中分别寻找关键词和热点词具体位置,并根据关键词和热点词具体位置,来判定热点词和关键词之间是否有交集等关系。
在文本B中,对句子中的关键词和热点词进行了示意,其中关键词和热点词的显示方式不同,“钻石”为关键词和热点词的交集,也进行了不同的展示。根据文本B中各个字符的显示方式,用户能够快速获知关键词和热点词的相关关系,例如,在文本B中,字符“钻石”为关键词和热点词的交集字符,在图1中进行了加粗展示,“流传”为热点词,进行了下划线展示,根据文本B的展示,即可获知“钻石”为关键词和热点词的交集字符,“流传”属于句子中的热点词。
除了广告投放领域,本公开实施例的方案还可应用于其他领域,例如新闻资讯领域,根据关键词和热点词在新闻文本中的不同标示,也能够快速获取新闻文本中的关键词和热点词的相互关系,对新闻文本的主要信息进行快速抓取。
可以理解的是,图1中的应用场景仅仅为一种示意,并不对实际的应用场景构成限定。
下面,通过具体实施例对本公开所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本公开实施例提供的文本处理方法的流程示意图,如图2所示,包括:
S21,获取第一句子的关键词和热点词,所述热点词为预设时段内使用频率大于第一阈值的词汇。
本公开实施例中对文本的处理,是以句子为单位的。一个或多个句子构成一个文本。在一个句子中,包括关键词和热点词,其中,关键词是一个句子中最能表达句子含义的词汇,热点词指的是一个时段内使用频率较高的词汇,即高频词汇。
可以理解的是,不同个句子中由于表达的含义各不相同,因此不同的句子中相应的关键词可能各不相同。而热点词为一个时段内使用频率较高的词汇,因此在不同的时段,句子中的热点词也可能各不相同。
针对不同的句子,关键词和热点词可能各不相同,本公开实施例中,针对每个句子的关键词和热点词是一定的。关键词和热点词之间的关系可能有多种,例如,关键词和热点词之间有交集、关键词和热点词之间无交集等等。
S22,根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符,所述关键词中的所述交集字符在所述第一句子中的索引、与所述热点词中的所述交集字符在所述第一句子中的索引相同。
在得到关键词后,根据关键词中的字符与第一句子的匹配,得到关键词的每个字符在第一句子中的位置,构成关键词在第一句子中的第一索引信息。例如,根据关键词中的字符,确定该字符在第一句子中的第几个字符位置处,得到该字符在第一句子中的位置。
同样的方式,根据热点词中的字符与第一句子的匹配,得到热点词的每个字符在第一句子中的位置,构成热点词在第一句子中的第二索引信息。
得到第一索引信息和第二索引信息后,根据第一索引信息和第二索引信息均包括的索引,确定交集字符在第一句子中的索引。本公开实施例中,交集字符在第一句子中的索引为第一索引信息和第二索引信息均包括的索引,上述设置是为了避免将关键词和热点词中包括的相同的字符,但是在第一句子中的位置不同的字符确定为交集字符。
例如,一个第一句子中包括关键词“女乒”和热点词“女排”,该句子中的关键词和热点词均包括字符“女”,但是,在句子中,字符“女”后面的字符可以为“乒”,也可以为“排”,也可以为其他字符,但是不可能同时为字符“乒”和“排”,因此在第一句子中的字符“女”不可能为关键词和热点词的交集字符。
S23,根据所述交集字符显示所述第一句子,所述交集字符的显示方式与所述第一句子中除所述交集字符外的其他字符的显示方式不同。
得到关键词和热点词的交集字符后,根据交集字符显示第一句子,在本公开实施例中,对交集字符的显示方式和第一句子中的其他显示方式不同,例如,可以对交集字符进行加粗显示、标红显示等等。进一步的,还可以对关键词中除交集字符外的其他字符进行突出展示,对热点词中除交集字符外的其他字符进行突出显示等等,其中突出显示可以是与交集字符的显示方式不同的显示方式,例如标蓝显示、下划线显示。
以广告投放领域为例,图3为本公开实施例提供的文本处理示意图,图3中示例了一个第一句子,第一句子为用户需要投放的广告词,后台工作人员需要对用户投放的广告词进行审核,其中,审核的一项标准可以为关键词和热点词之间的关系。
图3中示例的第一句子的内容如下:
钻石恒久远,一颗永流传。
在第一句子中包括一个关键词和一个热点词,其中关键词为“钻石”,热点词也为“钻石”。根据关键词“钻石”找到对应的第一索引信息,其中,第一索引信息表示关键词在第一句子中的具体位置。例如,第一索引信息可以指示关键词中的每个字符在第一句子中的位置,或者,第一索引信息可以指示关键词中的首尾字符在第一句子中的位置。同样的,第二索引信息可以指示关键词中的每个字符在第一句子中的位置,或者,第二索引信息可以指示关键词中的首尾字符在第一句子中的位置。
在图3的示例中,关键词位于第一句子的句首,其中,“钻”字位于第一句子中的第一个字符,“石”字位于第一句子中的第二个字符,即第一索引信息。在第一句子中,热点词也为“钻石”,因此相应的,第二索引信息此时与第一索引信息相同。
由上可知,在图3的第一句子中,“钻”和“石”这两个字符均属于交集字符,这两个字符既属于关键词中的部分,也属于热点词中的部分。得到交集字符后,根据交集字符“钻”和“石”,显示第一句子。图3中对“钻”和“石”进行了下划线显示,对交集字符的显示方式和第一句子中其他的字符的显示方式不同。
可以理解的是,图3中关键词和热点词为同一个词“钻石”的情况仅仅为一种举例,实际的关键词和热点词的关系并不限于这一种,例如还可以是关键词和热点词之间部分有交集、关键词和热点词之间无交集、关键词包含热点词、热点词包含关键词等等关系,此处不再赘述。
可以理解的是,图3中对交集字符进行下划线显示仅仅为一种举例,交集字符也可以包括其他的显示方式,例如加粗显示、放大显示、颜色标示等等,本公开实施例对此不作特别限定。
本公开实施例提供的文本处理方法,针对第一句子,首先在第一句子中获取关键词和热点词,其中,关键词为最能够表达第一句子含义的词,热点词为预设时段内使用频率大于第一阈值的词汇,然后根据关键词在第一句子中的第一索引信息和热点词在第一句子中的第二索引信息,确定关键词和热点词中均包括的交集字符,最后根据交集字符显示第一句子,交集字符的显示方式与第一句子中除交集字符外的字符的显示方式不同。通过本公开实施例的方案,能够优化展示文本中的关键词和热点词的展示,由于交集字符与其他字符的显示方式不同,因此当关键词和热点词存在交集时,根据文本中各字符的显示方式能够快速获知关键词和热点词的关系。
在上述实施例的基础上,下面以具体的实施例对本公开的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图4为本公开又一实施例提供的文本处理方法的流程示意图,如图4所示,包括:
S41,在第一句子中获取关键词和热点词,所述热点词为预设时段内使用频率大于第一阈值的词汇。
S42,在所述第一索引信息和所述第二索引信息中确定目标索引,所述第一索引信息和所述第二索引信息均包括所述目标索引。
本公开实施例中,第一索引信息包括关键词中每个字符在第一句子中的索引,第二索引信息包括热点词中每个字符在第一句子中的索引。根据关键词中每个字符在第一句子中的索引,能够唯一确定关键词在第一句子中的位置,同样的,根据热点词中每个字符在第一句子中的索引,能够唯一确定热点词在第一句子中的位置。
在确定目标索引之前,首先要获取关键词在第一句子中的第一索引信息和热点词在第二句子中的第二索引信息,下面将结合图5进行说明。
图5为本公开实施例提供的获取第一索引信息和第二索引信息的流程示意图,如图5所示,包括:
S51,获取所述关键词中的每个字符的第一排列顺序以及所述热点词中的每个字符的第二排列顺序。
本公开实施例中,确定关键词和热点词在第一句子中的索引信息,是根据单个字符来对第一句子中的字符进行匹配的。例如,关键词为“钻石”,其中包括两个字符,分别是“钻”和“石”,然后根据这两个字符在找第一句子中的位置。对于一个关键词“钻石”而言,其第一排列顺序为“钻”字排在“石”字前面,且两个字符应当是连续的。
热点词中的每个字符的第二排列顺序的获取方法与关键词中的每个字符的第一排列顺序的获取方式类似,此处不再赘述。
S52,获取所述关键词中的每个字符在所述第一句子中的第一位置以及所述热点词中的每个字符在所述第一句子中的第二位置。
针对关键词,获取关键词的每个字符,根据关键词的每个字符以及每个字符的第一排列顺序,可以得到关键词中的每个字符在第一句子中的第一位置。具体方式是,针对关键词中的任意一个字符,对第一句子中的字符进行匹配,找到第一句子中与该字符相同的所有的字符。其中,第一句子中可能包括一个或者多个与该字符相同的字符。在第一句子中找到该字符后,确定该字符在第一句子中的第一位置。关键词中的每个字符在第一句子中均有相应的第一位置,当第一句子中包括多个该字符时,第一位置可能包括多种情况。
获取热点词中的每个字符在第一句子中的第二位置的方法与获取关键词中的每个字符在第一句子中的第一位置的方法类似,此处不再赘述。
S53,根据所述第一排列顺序和所述第一位置,确定所述第一索引信息;根据所述第二排列顺和所述第二位置,确定所述第二索引信息。
根据关键词中的每个字符在第一句子中的第一位置,判断关键词中的字符的顺序与第一排列顺序是否相同,只有字符的顺序与第一排列顺序相同的词汇才确定为第一句子中的关键词,并根据第一句子中的关键词确定第一索引信息,其中,第一索引信息中包括第一句子中的关键词的每个字符的第一位置。
同样的,根据热点词中的每个字符在第一句子中的第二位置,判断热点词中的字符的顺序与第二排列顺序是否相同,只有字符的顺序与第二排列顺序相同的词汇才确定为第一句子中的热点词,并根据第一句子中的热点词确定第二索引信息,其中,第二索引信息中包括第一句子中的热点词的每个字符的第二位置。
下面将结合图6对该过程进行说明。
图6为本公开实施例提供的获取第一索引信息和第二索引信息的示意图,如图6所示,其中包括第一句子、第一句子的关键词和热点词,第一句子的内容如下:
女排姑娘们在上次比赛中取得了骄人的成绩,这是中国女排在国际赛事上取得的十连冠。
上述第一句子中,关键词为“中国女排”,热点词为“女排”、“国际赛事”。
本公开实施例中,在对文本进行处理之前,只能够获知第一句子的关键词和热点词具体为什么词汇,但是并不知晓关键词和热点词具体位于第一句子中的位置,需要通过字符的匹配才能够确定。
具体的方案如图6所示,例如,针对关键词“中国女排”,其中包括四个字符,分别是“中”、“国”、“女”、“排”,这四个字符可以构成一个第一集合。针对关键词“中国女排”中的四个字符,其第一排列顺序为“中”排在四个字符的第一位,“国”排在四个字符的第二位,“女”排在四个字符的第三位,“排”排在四个字符的第四位,且四个字符的顺序是连续的,中间没有其他字符。
得到了关键词对应的第一集合后,将第一集合中的四个字符中的每个字符与第一句子匹配,判断每个字符在第一句子中出现的第一位置。例如,字符“中”出现在第一句子中的第23个字符位置处(标点符号占据一个字符位置),字符“国”出现在第一句子中的第24个字符位置处,字符“女”在第一句子中出现了两次,分别在第一句子的第1个和第25个字符位置处,字符“排”也在第一句子中出现了两次,分别在第一句子的第2个和第26个字符位置处。
得到关键词“中国女排”的第一排列顺序和第一位置后,需要根据第一排列顺序和第一位置确定第一索引信息。一种可选的实施方式是,首先确定关键词中的首字符的第一位置,在图6中,关键词的首字符为“中”字,其处于第一句子中的第23个字符位置处,而根据第一排列顺序可知,关键词中的“国”、“女”、“排”依次排列在“中”字之后,因此,根据第一排列顺序,只需要进一步判断第一句子中的第24-26个字符位置处是否依次为“国”、“女”、“排”,若是,则第一句子中的第23-26个字符位置处即为第一句子中的关键词的所在位置,即关键词在第一句子中的第一索引信息。
上述根据关键词的首字符进行第一索引信息的确定仅仅为一种举例,并不构成对确定第一索引信息的方式的限定,实际中可以根据关键词中的任意一个字符确定,例如,还可以根据字符“女”来确定。
字符“女”在图6示例的第一句子中出现了两次,分别在第一句子的第1个和第25个字符位置处,而根据关键词的字符的第一排列顺序可知,关键词中的“中”和“国”排在字符“女”之前,图6中的第一句子中第1个字符为“女”字,此处的字符的排列顺序与关键词中的字符的排列顺序不同,因此第一句子中的第1个字符不属于第一句子中的关键词的内容。而根据第25个字符位置处的“女”字,以及第23个字符位置处的“中”字、第24个字符位置处的“国”字和第26个字符位置处的“排”字,可以获知在第一句子中,此处的“中”、“国”、“女”、“排”的排列顺序与关键词“中国女排”中字符的排列顺序相同,此时确定此处为第一句子中关键词的所在位置,从而得到关键词的第一索引信息。
针对热点词,通过与关键词相同的方式,可以得到热点词的第二索引信息,在图6中热点词的第二索引信息请参见图6示意,具体方式与针对关键词的处理方式类似,此处不再赘述。
在得到第一索引信息和第二索引信息后,根据第一索引信息和第二索引信息确定目标索引,其中目标索引为第一索引信息和第二索引信息均包括的索引。通过如上的限定,能够使得目标索引对应的字符为关键词和热点词均包括的字符。
图7A为本公开实施例提供的获取目标索引的示意图一,如图7A所示,示例了一个第一句子,第一句子的内容如下:
第一句子A-女排姑娘们在上次比赛中取得了骄人的成绩,这是中国女排在国际赛事上取得的十连冠。
在第一句子A中,关键词为“中国女排”,热点词为“女排”,关键词和热点词的索引信息如图7所示,其中“中国女排”在第一句子A中的第一索引信息为第23-26字符位置处,“女排”在第一句子A中的第二索引信息为第1-2字符位置处以及第25-26字符位置处。在第一句子A中,第25-26字符位置处为第一索引信息和第二索引信息均包括的索引,即为第一句子A中的目标索引。
图7B为本公开实施例提供的获取目标索引的示意图二,如图7B所示,示例了一个第一句子,第一句子的内容如下:
第一句子B-中国女排取得的骄人成绩,充分展现了中国精神,也振奋了人心。
在第一句子B中,关键词为“中国精神”,热点词为“中国女排”,则关键词“中国精神”在第一句子B中的第一索引信息为第18-21字符位置处,热点词“中国女排”在第一句子B中的第二索引信息为第1-4字符位置处。
在第二句子B中,虽然关键词和热点词中均包括“中国”二字,但是两个词汇中针对“中国”的索引信息不同,在关键词中,“中国”字符对应的索引为第18-19字符位置处,在热点词中,“中国”字符对应的索引为第1-2字符位置处,因此在第一句子B中,第一索引信息和第二索引信息没有重合,此时目标索引为空。
S43,将所述目标索引对应的字符确定为所述交集字符。
当第一索引信息和第二索引信息有重合时,重合的索引即为目标索引,同时,目标索引对应的字符确定为交集字符。例如图7的第一句子A中,目标索引为第25-26字符位置处,其对应的字符为第25-26字符位置处的“女排”,即交集字符。
在得到交集字符后,还需要确定非交集字符。具体的,在非交集字符中确定第一字符,第一字符为所述关键词中除所述交集字符之外的字符;在非交集字符中确定第二字符,第二字符为热点词中除交集字符之外的字符。
图8为本公开实施例提供的确定非交集字符的示意图,如图8所示,第一句子为:
女排姑娘们在上次比赛中取得了骄人的成绩,这是中国女排在国际赛事上取得的十连冠。
图8中第一句子的关键词为“中国女排”,热点词为“女排”、“国际赛事”。
第一索引信息为第23-26字符位置处,第二索引信息为第1-2、25-26、28-31字符位置处,根据第一索引信息和第二索引信息,确定目标索引为第25-26字符位置,第25-26字符位置处的字符“女排”为交集字符,其余字符为非交集字符。
在非交集字符中,第23-24字符位置处的“中国”为关键词中除交集字符“女排”之外的字符,即第一字符。第1-2字符位置处的“女排”、第28-31字符位置处的“国际赛事”为热点词中除交集字符“女排”之外的字符,即第二字符。
S44,确定所述交集字符的第一显示方式和非交集字符的第二显示方式,所述非交集字符为所述第一句子中除所述交集字符之外的其它字符。
S45,按照所述第一显示方式显示所述交集字符。
S46,按照所述第二显示方式显示所述非交集字符。
在确定交集字符、第一字符、第二字符和其他字符后,根据上述字符展示第一句子,其中,不同的字符的展示方式可以不同。
具体的,确定交集字符的第一显示方式,并按照第一显示方式显示交集字符;
确定第一字符的第二显示方式,并按照第二显示方式显示第一字符;
确定第二字符的第三显示方式,并按照第三显示方式显示第二字符;
确定第三字符的第四显示方式,并按照第四显示方式显示第三字符,第三字符为第一句子中除关键词和热点词之外的字符。
本公开实施例中,第一显示方式、第二显示方式、第三显示方式、第四显示方式不同,从而能够针对关键词和热点词的不同关系进行展示,使得用户能够根据第一句子的展示迅速获知关键词和热点词在第一句子中的位置,以及关键词和热点词的关系。
图9为本公开实施例提供的第一句子的显示示意图,如图9所示,包括一个第一句子,第一句子在图8中示例中的句子:
女排姑娘们在上次比赛中取得了骄人的成绩,这是中国女排在国际赛事上取得的十连冠。
其中,第一句子中属于第一字符、第二字符、第三字符、交集字符的部分在图9中进行示例。将第一句子中的各字符进行了区分之后,可以以不同的显示方式进行展示。图9的示例中,交集字符的第一显示方式为加粗和下划线展示,第一字符的第二显示方式为加粗展示,第二字符的第三显示方式为下划线展示,第三字符的第四显示方式不变。通过上述的不同显示方式,用户在看到加粗和加下划线的字符,即可获知该字符为关键词和热点词共有的字符,同时表明关键词和热点词之间有交集,在看到加粗的字符时,即可获知该字符为关键词,在看到加下划线的字符时,即可获知该字符为热点词,等等。
可以理解的是,上述不同加粗、下划线等显示方式仅仅为一种举例,实际中可以采取其他的显示方式,例如调整字符的颜色、调整字体的大小等等方式,本公开实施例对此不作特别限定。
本公开实施例提供的文本处理方法,针对第一句子,首先在第一句子中获取关键词和热点词,其中,关键词为最能够表达第一句子含义的词,热点词为预设时段内使用频率大于第一阈值的词汇,然后根据关键词在第一句子中的第一索引信息和热点词在第一句子中的第二索引信息,确定关键词和热点词中均包括的交集字符,最后根据交集字符显示第一句子,交集字符的显示方式与第一句子中除交集字符外的字符的显示方式不同。通过本公开实施例的方案,能够优化展示文本中的关键词和热点词的展示,由于交集字符与其他字符的显示方式不同,因此当关键词和热点词存在交集时,根据文本中各字符的显示方式能够快速获知关键词和热点词的关系。
图10为本公开实施例提供的文本处理装置的结构示意图,如图10所示,包括获取模块101、处理模块102和显示模块103,其中:
获取模块101用于获取第一句子的关键词和热点词,所述热点词为预设时段内使用频率大于第一阈值的词汇;
处理模块102用于根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符,所述关键词中的所述交集字符在所述第一句子中的索引、与所述热点词中的所述交集字符在所述第一句子中的索引相同;
显示模块103用于根据所述交集字符显示所述第一句子,所述交集字符的显示方式与所述第一句子中除所述交集字符外的其他字符的显示方式不同。
在一种可能的实施方式中,所述第一索引信息包括所述关键词中每个字符在所述第一句子中的索引;
所述第二索引信息包括所述热点词中每个字符在所述第一句子中的索引。
在一种可能的实施方式中,所述处理模块102具体用于:
在所述第一索引信息和所述第二索引信息中确定目标索引,所述第一索引信息和所述第二索引信息均包括所述目标索引;
将所述目标索引对应的字符确定为所述交集字符。
在一种可能的实施方式中,所述显示模块103具体用于:
确定所述交集字符的第一显示方式和非交集字符的第二显示方式,所述非交集字符为所述第一句子中除所述交集字符之外的其它字符;
按照所述第一显示方式显示所述交集字符;
按照所述第二显示方式显示所述非交集字符。
在一种可能的实施方式中,所述处理模块102还用于:
在所述非交集字符中确定第一字符,所述第一字符为所述关键词中除所述交集字符之外的字符;
在所述非交集字符中确定第二字符,所述第二字符为所述热点词中除所述交集字符之外的字符。
在一种可能的实施方式中,所述显示模块103具体用于:
确定所述交集字符的第一显示方式,并按照所述第一显示方式显示所述交集字符;
确定所述第一字符的第二显示方式,并按照所述第二显示方式显示所述第一字符;
确定所述第二字符的第三显示方式,并按照所述第三显示方式显示所述第二字符;
确定第三字符的第四显示方式,并按照所述第四显示方式显示所述第三字符,所述第三字符为所述第一句子中除所述关键词和所述热点词之外的字符。
在一种可能的实施方式中,所述处理模块102还用于:
获取所述关键词中的每个字符的第一排列顺序以及所述热点词中的每个字符的第二排列顺序;
获取所述关键词中的每个字符在所述第一句子中的第一位置以及所述热点词中的每个字符在所述第一句子中的第二位置;
根据所述第一排列顺序和所述第一位置,确定所述第一索引信息;根据所述第二排列顺和所述第二位置,确定所述第二索引信息。
本公开实施例提供的装置,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图11为本公开实施例提供的电子设备的结构示意图,参考图11,其示出了适于用来实现本公开实施例的电子设备110的结构示意图,该电子设备110可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable Media Player,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图11示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图11所示,电子设备110可以包括处理装置(例如中央处理器、图形处理器等)111,其可以根据存储在只读存储器(Read Only Memory,简称ROM)112中的程序或者从存储装置118加载到随机访问存储器(Random Access Memory,简称RAM)113中的程序而执行各种适当的动作和处理。在RAM 113中,还存储有电子设备110操作所需的各种程序和数据。处理装置111、ROM 112以及RAM 113通过总线114彼此相连。输入/输出(I/O)接口115也连接至总线114。
通常,以下装置可以连接至I/O接口115:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置116;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置117;包括例如磁带、硬盘等的存储装置118;以及通信装置119。通信装置119可以允许电子设备110与其他设备进行无线或有线通信以交换数据。虽然图11示出了具有各种装置的电子设备110,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置119从网络上被下载和安装,或者从存储装置118被安装,或者从ROM112被安装。在该计算机程序被处理装置111执行时,执行本公开实施例的文本处理方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。
最后应说明的是:以上各实施例仅用以说明本公开实施例的技术方案,而非对其限制;尽管参照前述各实施例对本公开实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开实施例方案的范围。

Claims (11)

1.一种文本处理方法,其特征在于,包括:
获取第一句子的关键词和热点词,所述热点词为预设时段内使用频率大于第一阈值的词汇;
根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符,所述关键词中的所述交集字符在所述第一句子中的索引,与所述热点词中的所述交集字符在所述第一句子中的索引相同;
根据所述交集字符显示所述第一句子,所述交集字符的显示方式与所述第一句子中除所述交集字符外的其他字符的显示方式不同。
2.根据权利要求1所述的方法,其特征在于,
所述第一索引信息包括所述关键词中每个字符在所述第一句子中的索引;
所述第二索引信息包括所述热点词中每个字符在所述第一句子中的索引。
3.根据权利要求2所述的方法,其特征在于,根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符,包括:
在所述第一索引信息和所述第二索引信息中确定目标索引,所述第一索引信息和所述第二索引信息均包括所述目标索引;
将所述目标索引对应的字符确定为所述交集字符。
4.根据权利要求1-3任一项所述的方法,其特征在于,根据所述交集字符显示所述第一句子,包括:
确定所述交集字符的第一显示方式和非交集字符的第二显示方式,所述非交集字符为所述第一句子中除所述交集字符之外的其它字符;
按照所述第一显示方式显示所述交集字符;
按照所述第二显示方式显示所述非交集字符。
5.根据权利要求4所述的方法,其特征在于,根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符之后,还包括:
在所述非交集字符中确定第一字符,所述第一字符为所述关键词中除所述交集字符之外的字符;
在所述非交集字符中确定第二字符,所述第二字符为所述热点词中除所述交集字符之外的字符。
6.根据权利要求5所述的方法,其特征在于,根据所述交集字符显示所述第一句子,包括:
确定所述交集字符的第一显示方式,并按照所述第一显示方式显示所述交集字符;
确定所述第一字符的第二显示方式,并按照所述第二显示方式显示所述第一字符;
确定所述第二字符的第三显示方式,并按照所述第三显示方式显示所述第二字符;
确定第三字符的第四显示方式,并按照所述第四显示方式显示所述第三字符,所述第三字符为所述第一句子中除所述关键词和所述热点词之外的字符。
7.根据权利要求1-3、5-6任一项所述的方法,其特征在于,在根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符之前,所述方法还包括:
获取所述关键词中的每个字符的第一排列顺序以及所述热点词中的每个字符的第二排列顺序;
获取所述关键词中的每个字符在所述第一句子中的第一位置以及所述热点词中的每个字符在所述第一句子中的第二位置;
根据所述第一排列顺序和所述第一位置,确定所述第一索引信息;根据所述第二排列顺和所述第二位置,确定所述第二索引信息。
8.根据权利要求4所述的方法,其特征在于,在根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符之前,所述方法还包括:
获取所述关键词中的每个字符的第一排列顺序以及所述热点词中的每个字符的第二排列顺序;
获取所述关键词中的每个字符在所述第一句子中的第一位置以及所述热点词中的每个字符在所述第一句子中的第二位置;
根据所述第一排列顺序和所述第一位置,确定所述第一索引信息;根据所述第二排列顺和所述第二位置,确定所述第二索引信息。
9.一种文本处理装置,其特征在于,包括:
获取模块,用于获取第一句子的关键词和热点词,所述热点词为预设时段内使用频率大于第一阈值的词汇;
处理模块,用于根据所述关键词在所述第一句子中的第一索引信息和所述热点词在所述第一句子中的第二索引信息,确定所述关键词和所述热点词中均包括的交集字符,所述关键词中的所述交集字符在所述第一句子中的索引、与所述热点词中的所述交集字符在所述第一句子中的索引相同;
显示模块,用于根据所述交集字符显示所述第一句子,所述交集字符的显示方式与所述第一句子中除所述交集字符外的其他字符的显示方式不同。
10.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至8任一项所述的文本处理方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至8任一项所述的文本处理方法。
CN202010004138.4A 2020-01-03 2020-01-03 文本处理方法及装置 Active CN111221951B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010004138.4A CN111221951B (zh) 2020-01-03 2020-01-03 文本处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010004138.4A CN111221951B (zh) 2020-01-03 2020-01-03 文本处理方法及装置

Publications (2)

Publication Number Publication Date
CN111221951A CN111221951A (zh) 2020-06-02
CN111221951B true CN111221951B (zh) 2021-05-28

Family

ID=70829332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010004138.4A Active CN111221951B (zh) 2020-01-03 2020-01-03 文本处理方法及装置

Country Status (1)

Country Link
CN (1) CN111221951B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111782783A (zh) * 2020-06-17 2020-10-16 联想(北京)有限公司 一种应答方法、装置、设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334118A (ja) * 1997-05-30 1998-12-18 Matsushita Electric Ind Co Ltd 辞書索引作成装置と文書検索装置
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
CN104111923A (zh) * 2013-04-16 2014-10-22 英业达科技有限公司 建立数据关联系统及其方法
CN104395900A (zh) * 2013-03-15 2015-03-04 北京未名博思生物智能科技开发有限公司 序列比对的空间计数运算方法
CN110222143A (zh) * 2019-05-31 2019-09-10 北京小米移动软件有限公司 字符串匹配方法,装置,存储介质及电子设备
CN110569504A (zh) * 2019-09-04 2019-12-13 北京明略软件系统有限公司 一种关系词确定方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
CN101751433B (zh) * 2008-12-22 2012-10-17 汉王科技股份有限公司 名片字符条目分类方法与装置
US9489414B2 (en) * 2014-05-30 2016-11-08 Spiral Genetics, Inc. Prefix burrows-wheeler transformations for creating and searching a merged lexeme set
US10269352B2 (en) * 2016-12-23 2019-04-23 Nice Ltd. System and method for detecting phonetically similar imposter phrases
CN108536407B (zh) * 2018-03-02 2019-09-10 Oppo广东移动通信有限公司 文本显示方法、装置以及移动终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10334118A (ja) * 1997-05-30 1998-12-18 Matsushita Electric Ind Co Ltd 辞書索引作成装置と文書検索装置
US8160866B2 (en) * 2008-04-18 2012-04-17 Tze Fen Li Speech recognition method for both english and chinese
CN104395900A (zh) * 2013-03-15 2015-03-04 北京未名博思生物智能科技开发有限公司 序列比对的空间计数运算方法
CN104111923A (zh) * 2013-04-16 2014-10-22 英业达科技有限公司 建立数据关联系统及其方法
CN110222143A (zh) * 2019-05-31 2019-09-10 北京小米移动软件有限公司 字符串匹配方法,装置,存储介质及电子设备
CN110569504A (zh) * 2019-09-04 2019-12-13 北京明略软件系统有限公司 一种关系词确定方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
全文检索系统中语种识别与索引技术研究;薛亚平等;《网络安全技术与应用》;北京大学出版社;20091231(第12期);第49-51页 *

Also Published As

Publication number Publication date
CN111221951A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN111445902B (zh) 数据收集方法、装置、存储介质及电子设备
CN110969012B (zh) 文本纠错方法、装置、存储介质及电子设备
US11758088B2 (en) Method and apparatus for aligning paragraph and video
CN113377366B (zh) 控件编辑方法、装置、设备、可读存储介质及产品
CN107948437B (zh) 熄屏显示方法和装置
CN112287206A (zh) 信息处理方法、装置和电子设备
CN110781658B (zh) 简历解析方法、装置、电子设备和存储介质
US20240079002A1 (en) Minutes of meeting processing method and apparatus, device, and medium
CN109815448B (zh) 幻灯片生成方法及装置
CN111597107B (zh) 信息输出方法、装置和电子设备
CN113377365A (zh) 代码显示方法、装置、设备、计算机可读存储介质及产品
CN111046252B (zh) 一种信息处理的方法、装置、介质、电子设备和系统
CN111221951B (zh) 文本处理方法及装置
US10769372B2 (en) Synonymy tag obtaining method and apparatus, device and computer readable storage medium
CN110286776A (zh) 字符组合信息的输入方法、装置、电子设备和存储介质
CN112905090A (zh) 电子表格的处理方法、装置、终端和存储介质
CN113378895B (zh) 一种分类模型生成方法、装置、存储介质及电子设备
EP4207775A1 (en) Method and apparatus for determining object addition mode, electronic device, and medium
CN116501832A (zh) 评论处理方法及设备
CN110502630B (zh) 信息处理方法及设备
CN114281981B (zh) 新闻简报的生成方法、装置和电子设备
CN111026983B (zh) 一种实现超链接的方法、装置、介质和电子设备
CN112099865A (zh) 应用打开方法和装置、移动终端及计算机可读存储介质
CN117234465A (zh) 基于标记语言的代码生成方法、装置、设备及存储介质
CN118869644A (zh) 信息处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant