CN110096695A - 超链接标记方法和装置、文本分类方法和装置 - Google Patents
超链接标记方法和装置、文本分类方法和装置 Download PDFInfo
- Publication number
- CN110096695A CN110096695A CN201810091591.6A CN201810091591A CN110096695A CN 110096695 A CN110096695 A CN 110096695A CN 201810091591 A CN201810091591 A CN 201810091591A CN 110096695 A CN110096695 A CN 110096695A
- Authority
- CN
- China
- Prior art keywords
- text
- probability distribution
- history
- classification
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种超链接标记方法、装置、计算机可读存储介质和计算机设备,所述方法包括:获取待标记的文本;确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;将所述链接地址标记为所述文本的超链接。本申请提供的方案可以提高超链接标记的准确性。
Description
技术领域
本申请涉及计算机信息处理技术领域,特别是涉及一种超链接标记方法和装置、文本分类方法和装置。
背景技术
随着网络通信技术的发展,出现了搜索引擎技术,搜索引擎技术通过网络上大量的页面信息,响应用户提出的各种检索请求,为用户提供所需信息。而通过超链接标记技术进行检索则是一种特殊的检索方式,用户可通过点击标记有超链接的文本,跳转至链接的页面以获取所需信息,方便快捷。
传统的超链接标记方式,通常是对常见的百科词汇进行超链接标记。然而,基于传统的超链接标记方式,无法对最新出现的词汇或者特定领域的词汇进行准确的标记和释义,常常导致超链接标记不准确的问题。
发明内容
基于此,有必要针对超链接标记不准确的技术问题,提供一种超链接标记、文本分类方法、装置、计算机可读存储介质和计算机设备。
一种超链接标记方法,包括:
获取待标记的文本;
确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;
获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;
将所述链接地址标记为所述文本的超链接。
一种超链接标记装置,所述装置包括:
获取模块,用于获取待标记的文本;
确定模块,用于确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;
所述获取模块还用于获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;
标记模块,用于将所述链接地址标记为所述文本的超链接。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述超链接标记方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述超链接标记方法的步骤。
上述超链接标记方法、装置、计算机可读存储介质和计算机设备,获取待标记的文本,通过确定待标记的文本所属的类别,该类别用于指示与该类别相匹配的分词方式对待标记的文本进行分词,得到词序列,可使得在与该类别对应的领域下对待标记的文本进行细粒度精准分词和释义。再将指向根据词序列检索得到的检索结果的链接地址标记为待标记的文本的超链接。这样,通过与待标记的文本所属的类别相匹配的分词方式对待标记的文本进行分词,大大提高了分词的准确性;通过对分词得到的词序列进行检索,使得检索粒度更细化、检索结果更贴合待标记的文本的含义,大大提高了超链接标记的准确性。
一种文本分类方法,包括:
获取待分类的文本;
获取对所述文本本身进行分类的第一概率分布;
确定所述文本的上下文;
获取对所述上下文进行分类的第二概率分布;
将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;
确定所述文本的来源方标识;
获取对所述来源方标识对应的历史文本进行分类的第四概率分布;
根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别。
一种文本分类装置,所述装置包括:
获取模块,用于获取待分类的文本;
所述获取模块还用于获取对所述文本本身进行分类的第一概率分布;
确定模块,用于确定所述文本的上下文;
所述获取模块还用于获取对所述上下文进行分类的第二概率分布;
融合模块,用于将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;
所述确定模块还用于确定所述文本的来源方标识;
所述获取模块还用于获取对所述来源方标识对应的历史文本进行分类的第四概率分布;
所述确定模块还用于根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述文本分类方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述文本分类方法的步骤。
上述文本分类方法、装置、计算机可读存储介质和计算机设备,对待分类的文本本身进行分类,得到第一概率分布;对待分类的文本的上下文进行分类,得到第二概率分布。再将第一概率分布和第二概率分布进行第一融合,得到第三概率分布,这样,可使得第三概率分布和待分类的文本本身、待分类的文本的上下文都相关。通过对文本的来源方标识对应的历史文本进行分类,得到第四概率分布,再根据第三概率分布和第四概率分布,确定文本所属的类别,使得在对文本进行分类时,不仅仅利用了文本本身的信息,还利用了文本的上下文、文本的来源方标识对应的历史文本,充分挖掘了文本的有效信息。这样充分利用文本的有效信息对文本进行分类,可大大提高文本的分类准确性。
附图说明
图1为一个实施例中超链接标记方法和/或文本分类方法的应用环境图;
图2为一个实施例中超链接标记方法的流程示意图;
图3为一个实施例中获取待标记的文本的步骤的流程示意图;
图4为一个实施例中确定文本所属的类别的步骤的流程示意图;
图5为一个实施例中根据第一概率分布和第二概率分布,确定文本所属的类别的步骤的流程示意图;
图6为一个实施例中获取对来源方标识对应的历史文本进行分类的第四概率分布的步骤的流程示意图;
图7为一个实施例中访问检索结果所链接的页面的步骤的流程示意图;
图8为另一个实施例中超链接标记方法的流程示意图;
图9为一个实施例中文本分类方法的流程示意图;
图10为另一个实施例中文本分类方法的流程示意图;
图11为一个实施例中交互界面中用户选中待标记的文本的界面示意图;
图12为一个实施例中终端对待标记的文本中的词进行超链接标记的界面示意图;
图13为一个实施例中终端对待标记的文本整体进行超链接标记的界面示意图;
图14为一个实施例中目标页面的界面示意图;
图15为一个实施例中超链接标记装置的结构框图;
图16为另一个实施例中超链接标记装置的结构框图;
图17为一个实施例中文本分类装置的结构框图;
图18为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中超链接标记方法和/或文本分类方法的应用环境图。参照图1,该超链接标记方法和/或文本分类方法应用于一种数据处理系统。该数据处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑和笔记本电脑等中的至少一种。服务器120可以是物理服务器或虚拟服务器,也可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
如图2所示,在一个实施例中,提供了一种超链接标记方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该超链接标记方法具体包括如下步骤:
S202,获取待标记的文本。
其中,待标记的文本是需要进行超链接标记的文本。待标记的文本具体可以是字、词、句或自然段落等。超链接是从一个页面指向目标页面的连接关系,这个目标页面具体可以是相同页面上的不同位置,也可以是网页,还可以是图片、电子邮件地址、文件或应用程序等。
在一个实施例中,终端可展示交互界面,交互界面中展示有内容。终端可检测对交互界面中所展示内容的文本选择操作,当检测到文本选择操作时,将检测到的文本选择操作所选中的文本作为待标记的文本。其中,文本选择操作是选择文本的操作,可用于触发超链接标记动作。文本选择操作具体可以是点击、双击或滑动等动作。
在一个实施例中,终端可展示文本输入框,接收输入至文本输入框的文本,将文本输入框中的文本作为待标记的文本。
S204,确定文本所属的类别;类别用于确定与类别相匹配的分词方式,并按照分词方式对文本分词,得到词序列。
其中,分词方式是对文本进行分词的方法,具体可采用基于词典的分词算法或者分词模型等对文本进行分词。其中,基于词典的分词算法具体可以是基于词典的正向最大匹配算法、逆向最大匹配算法、最少切分算法或者双向最大匹配算法等。分词模型具体可以是隐马尔可夫模型或CRF(conditional random field algorithm,条件随机场算法)模型等。
其中,与类别相匹配的分词方式是与文本所属的类别相匹配的分词方式。按照分词方式对文本分词,具体可以是加载在该类别下的常规词典、新词词典或专业词典等对文本进行分词,或者采用与该类别相对应的领域下的分词模型对文本进行分词。词序列是对文本进行分词后得到的词的词集合。
具体地,终端可对文本进行分类,得到文本所属的类别。文本所属的类别,比如,音乐、电子产品、小说、人物或旅游景点等。在一个实施例中,终端确定文本所属的类别后,采用与该类别相匹配的分词方式,对文本进行分词,得到词序列。在一个实施例中,终端确定文本所属的类别后,可将该类别发送至服务器,服务器确定与该类别相匹配的分词方式,并按照确定的分词方式对文本分词,得到词序列。
在一个实施例中,终端或服务器对文本进行分词,对分词得到的词去停用词后,得到词序列。其中,停用词(Stop Words)是指在信息检索中,为节省存储空间和提高检索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词,比如一些应用十分广泛的词、语气助词、客套词、介词或连接词等。
在一个实施例中,终端可直接对待标记的文本本身进行分类,得到文本所属的类别。终端也可以通过对待标记的文本本身和/或待标记的文本的相关信息进行分类,得到文本所属的类别。其中,待标记的文本的相关信息,比如待标记的文本的上下文、待标记的文本的来源方的操作记录或待标记的文本的来源方标识对应的历史文本等。
在一个实施例中,终端可采用基于词典的分类方式对待标记的文本进行分类,得到文本所属的类别。具体地,终端可预先设置属于不同类别的专业词汇,通过常规词典对待标记的文本进行常规分词,得到常规词序列后,将得到的常规词序列和专业词汇进行词匹配,得到文本属于每个类别的匹配度。将最大匹配度所对应的类别作为文本所属的类别。
在一个实施例中,终端可通过常规词典对待标记的文本进行常规分词,得到常规词序列后,将常规词序列输入已训练好的分类模型,得到文本所属的类别。其中,分类模型,比如逻辑回归模型,支持向量机模型或基于决策树的模型等。
S206,获取链接地址,链接地址指向根据词序列检索得到的检索结果。
具体地,终端可获取指向根据词序列检索得到的检索结果的链接地址。根据词序列检索,可以是通过云端索引、知识图谱或者网络搜索引擎等对词序列进行检索。
在一个实施例中,终端采用与文本所属的类别相匹配的分词方式,对文本进行分词得到词序列后,可对词序列中的所有词进行综合检索,得到与文本相对应的检索结果。终端根据检索结果生成一个链接地址,该链接地址指向与文本相对应的检索结果。
在一个实施例中,终端采用与文本所属的类别相匹配的分词方式,对文本进行分词得到词序列后,可分别对词序列中的每个词进行单独检索,得到与每个词分别对应的检索结果。终端根据检索结果分别生成与各个词对应的链接地址,每个链接地址指向根据相应的词检索得到的检索结果。
在一个实施例中,终端确定文本所属的类别后,将该类别发送至服务器,服务器采用与该类别相匹配的分词方式对文本分词,得到词序列。服务器可对词序列中的所有词进行综合检索,得到与文本相对应的检索结果。服务器根据检索结果生成链接地址,该链接地址指向与文本相对应的检索结果。服务器将链接地址发送给终端,终端接收服务器反馈的指向检索结果的链接地址。
在一个实施例中,终端确定文本所属的类别后,将该类别发送至服务器,服务器采用与该类别相匹配的分词方式对文本分词,得到词序列。服务器可分别对词序列中的每个词进行单独检索,得到与每个词分别对应的检索结果。服务器根据检索结果分别生成与各个词对应的链接地址,每个链接地址指向根据相应的词检索得到的检索结果。服务器将链接地址发送给终端,终端接收服务器反馈的链接地址。
S208,将链接地址标记为文本的超链接。
在一个实施例中,终端获取与整个文本对应的一个链接地址后,将该链接地址标记为整个文本的超链接。当终端检测到对标记有超链接的整个文本的触发操作时,可根据文本所标记的链接地址访问目标页面。
在一个实施例中,终端获取与词序列中各个词相应的链接地址后,将每个链接地址分别标记为文本中相应词的超链接。当终端检测到对标记有超链接的词的触发操作时,可根据文本中相应词所标记的链接地址访问目标页面。
上述超链接标记方法,获取待标记的文本,通过确定待标记的文本所属的类别,该类别用于指示与该类别相匹配的分词方式对待标记的文本进行分词,得到词序列,可使得在与该类别对应的领域下对待标记的文本进行细粒度精准分词和释义。再将指向根据词序列检索得到的检索结果的链接地址标记为待标记的文本的超链接。这样,通过与待标记的文本所属的类别相匹配的分词方式对待标记的文本进行分词,大大提高了分词的准确性;通过对分词得到的词序列进行检索,使得检索粒度更细化、检索结果更贴合待标记的文本的含义,大大提高了超链接标记的准确性。
在一个实施例中,步骤S206包括:获取与词序列中各个词相应的链接地址;每个链接地址指向根据相应的词检索得到的检索结果。步骤S208包括:将每个链接地址分别标记为文本中相应词的超链接。
在一个实施例中,终端对文本进行分词得到词序列后,可对词序列中的每个词进行单独检索,得到与每个词分别对应的检索结果。终端根据检索结果分别生成与各个词对应的链接地址,每个链接地址指向根据相应的词检索得到的检索结果。终端将每个链接地址分别标记为文本中相应词的超链接。
在一个实施例中,服务器对文本进行分词得到词序列后,可分别对词序列中的每个词进行单独检索,得到与每个词分别对应的检索结果。服务器根据检索结果分别生成与各个词对应的链接地址,每个链接地址指向根据相应的词检索得到的检索结果。服务器将链接地址发送给终端,终端接收服务器反馈的链接地址。终端将每个链接地址分别标记为文本中相应词的超链接。
上述实施例中,获取与词序列中各个词相应的,并且指向根据相应的词检索得到的检索结果的链接地址,可分别对文本中相应的词进行超链接标记,用户可根据需求选择查看对应的词的检索结果,大大加强了超链接标记的适用性。
在一个实施例中,获取与词序列中各个词相应的链接地址,包括:获取从词序列中筛选的指定词,以及与各个指定词相应的链接地址;指定词是根据用户数据或文本的相关信息筛选得到的。
其中,用户数据是触发获取待标记的文本操作的用户标识所对应的数据。用户数据具体可以是用户属性数据、用户操作记录或用户所属类别等。其中,用户属性数据比如用户的籍贯、年龄、爱好或性别等。用户操作记录具体可以是用户的搜索记录、用户的浏览记录或用户的聊天记录等。文本的相关信息是与文本相关的信息,比如文本的上下文、文本的标题或文本所属的类别等。
具体地,终端可以获取自身从词序列中筛选的指定词,以及与各个指定词相应的链接地址,或者接收服务器发送的从词序列中筛选的指定词,以及与各个指定词相应的链接地址。
在一个实施例中,终端或服务器可根据用户数据从词序列中筛选与用户数据相关的指定词。举例说明,终端获取到该用户的用户属性数据,比如该用户喜爱看电影或听音乐等,可将词序列中的所有词与用户属性数据进行匹配,筛选出与用户属性数据相关的指定词,比如歌曲名或电影名等。或者,终端获取了用户操作记录,分析用户操作记录,筛选词序列中被用户搜索频次最高的前N名的词作为指定词,其中,N为正整数。
在一个实施例中,终端或服务器可根据待标记的文本确定待标记的文本的相关信息,比如文本的上下文或标题等。终端或服务器可采用TF-IDF(term frequency–inversedocument frequency,词频-逆向文件频率)统计方法分别评估词序列中的每个词对文本的相关信息的重要程度,筛选重要程度最高的前N名的词作为指定词。
上述实施例中,根据用户数据或文本的相关信息从词序列中筛选得到指定词,仅对指定词进行检索得到检索结果,可以从词序列的多个词中筛选出符合用户需求的指定词,并得到符合用户需求的检索结果。再获取与各个指定词相应的指向根据相应的词检索得到的检索结果的链接地址,可实现对指定词的快速超链接标记,以满足用户的检索需求。
在一个实施例中,超链接标记方法应用于移动终端,该方法还包括:将类别发送至服务器,类别用于指示服务器确定与类别相匹配的分词方式,指示服务器按照分词方式对文本分词,得到词序列,并指示服务器根据词序列进行检索,得到检索结果;获取链接地址包括:接收服务器反馈的指向检索结果的链接地址。
具体地,移动终端确定文本所属的类别后,可将该类别发送至服务器,服务器确定与该类别相匹配的分词方式,并按照确定的分词方式对文本分词,得到词序列。服务器再根据得到的词序列进行检索,得到检索结果,将与检索结果对应的链接地址发送给移动终端,移动终端接收服务器反馈的指向检索结果的链接地址。
上述实施例中,超链接标记方法应用于移动终端,移动终端确定待标记的文本所属的类别,可保护移动终端的数据,避免泄露。移动终端再将类别发送至服务器,服务器在该类别下进行分词和检索,可以大大提高检索的效率和质量。这样通过移动终端和服务器相结合的超链接标记方法,既保护了移动终端的数据,又提高了超链接标记的效率和质量。
在一个实施例中,获取待标记的文本的步骤具体包括以下步骤:
S302,展示交互界面,交互界面中展示有内容。
其中,交互界面是用户和计算机进行信息交换的通道,用户可通过交互界面向计算机输入信息、进行操作,计算机则通过交互界面向用户提供信息,以供阅读、分析和判断。
在一个实施例中,终端上运行有客户端,终端可通过检测作用于客户端的交互界面展示指令,根据检测的指令展示交互界面。交互界面中可展示用户和终端进行交互的内容。
S304,检测对交互界面中所展示内容的文本选择操作。
其中,文本选择操作是选中文本的操作。文本选择操作具体可以是触摸操作、光标操作或者按键操作。其中,触摸操作可以是触摸点击操作、触摸按压操作或者触摸滑动操作,触摸操作可以是单点触摸操作或者多点触摸操作;光标操作可以是控制光标进行点击的操作或者控制光标进行按压的操作;按键操作可以是虚拟按键操作或者实体按键操作等。
具体地,终端可展示的交互界面,交互界面中展示有文字内容,终端检测在交互界面中触发的对内容的文本选择操作。
S306,将检测到的文本选择操作所选中的文本作为待标记的文本。
具体地,终端可将检测到的文本选择操作所选中的文本作为待标记的文本。
上述实施例中,通过展示交互界面,并检测对交互界面中所展示内容的文本选择操作,可以以用户交互为触发,根据用户需求选中待标记的文本,并对待标记的文本进行超链接标记,实现了半自动标记。并且,标记的文本不再局限于特定的词汇或内容,在交互界面中展示的文本都可以根据用户需求进行超链接标记,大大扩展了超链接标记的应用范围。
在一个实施例中,确定文本所属的类别的步骤具体包括:
S402,获取对文本本身进行分类的第一概率分布。
其中,第一概率分布是将文本本身分类到类别的概率所组成的概率分布。概率分布可以是一组概率值,第一概率分布比如δ1=[x0,x1,x2,...,xn-1]。其中,x0至xn-1分别是将文本本身分类到n个类别的概率。具体地,终端可在获取待标记的文本后,对文本本身进行分类,得到第一概率分布。
S404,确定文本的上下文。
其中,上下文是与待标记文本相联系的文本,可以展示在待标记的文本的上方或者下方。比如,当待标记的文本是一篇文章中的第5自然段,则该文本的上下文可以是此文章中的第4自然段和/或第6自然段。再比如,当待标记的文本是A的聊天记录中的第5句聊天记录,则该文本的上下文可以是A的聊天记录中的第4句和/或第6句聊天记录。具体地,终端可在获取待标记的文本后,可根据待标记的文本在终端的显示界面中的显示位置,从上或从下在预设距离内获取待标记的文本的上下文。
S406,获取对上下文进行分类的第二概率分布。
其中,第二概率分布是将上下文分类到类别的概率所组成的概率分布。第二概率分布与第一概率分布相对应,第二概率分布比如δ2=[y0,y1,y2,...,yn-1]。其中,y0至yn-1分别是将上下文分类到n个类别的概率。具体地,终端可在获取上下文后,采用基于词典的分类方式或已训练好的分类模型等对上下文进行分类,得到第二概率分布。
S408,根据第一概率分布和第二概率分布,确定文本所属的类别。
具体地,终端可将第一概率分布和第二概率分布融合,得到第三概率分布,根据第三概率分布确定文本所属的类别。
在一个实施例中,终端可将第一概率分布和第二概率分布进行加权求和得到第三概率分布。比如,第一概率分布为δ1=[x0,x1,x2,...,xn-1],第二概率分布为δ2=[y0,y1,y2,...,yn-1]。取α为权重调节值,其中α为正数且小于1,则δ3=α*δ1+(1-α)*δ2。
在一个实施例中,终端可直接将第一概率分布和第二概率分布进行相乘,得到第三概率分布。比如,第一概率分布为δ1=[x0,x1,x2,...,xn-1],第二概率分布为δ2=[y0,y1,y2,...,yn-1]。则δ3=δ1*δ2。
在一个实施例中,终端将第一概率分布和第二概率分布融合,得到第三概率分布,第三概率分布比如,δ3=[p0,p1,p2,...,pn-1]。确定p0至pn-1中的最大值,将最大值对应的预设类别作为文本所属的类别。
上述实施例中,通过待标记的文本本身和文本的上下文分别进行分类,得到第一概率分布和第二概率分布,根据第一概率分布和第二概率分布,共同确定文本所属的类别,充分利用了文本本身的信息和文本的上下文的信息,这样充分挖掘并利用文本的有效信息,可大大提高文本的分类准确性,进而提高了超链接标记的准确性。
在一个实施例中,步骤S408具体包括以下步骤:
S502,将第一概率分布和第二概率分布进行第一融合,得到第三概率分布。
具体地,终端将第一概率分布和第二概率分布进行第一融合,得到第三概率分布,其中,第一融合比如加权求和或相乘等。第三概率分布,比如δ3=[p0,p1,p2,...,pn-1]。
S504,确定文本的来源方标识。
其中,来源方标识是待标记的文本的来源方的标识,用来唯一标识待标记的文本的来源方。待标记的文本的来源方具体是指文本的生产者,比如,当文本是某篇公众号的文章里的内容时,文本的来源方则是该公众号主体;当文本是聊天记录时,文本的来源方则是产生该聊天记录的对象。具体地,终端在确定待标记的文本时,可获取文本的来源方标识。
S506,获取对来源方标识对应的历史文本进行分类的第四概率分布。
具体地,终端可先确定待标记的文本的来源方标识,再确定来源方标识所对应的历史文本。在本实施例中,来源方标识所对应的历史文本比如,当来源方标识是公众号名称时,则历史文本为该公众号主体发布的历史文章;当来源方标识是聊天对象的名称时,则历史文本为该聊天对象的历史聊天记录。
进一步地,终端在获取到来源方标识对应的历史文本后,可采用基于词典的分类方式或已训练好的分类模型等对历史文本进行分类,得到第四概率分布,第四概率分布比如δ4=[q0,q1,q2,...,qn-1]。其中,q0至qn-1分别是将历史文本分类到n个类别的概率。
S508,根据第三概率分布和第四概率分布,确定文本所属的类别。
具体地,终端可根据第三概率分布和第四概率分布进行计算,比如加权求和或相乘等,得到第五概率分布,再将第五概率分布中满足预设条件的概率所对应的类别作为文本所属的类别。
上述实施例中,通过将待标记的文本本身和文本的上下文分别进行分类后得到的第一概率分布和第二概率分布进行融合,得到第三概率分布。再对文本的来源方标识对应的历史文本进行分类,得到第四概率分布。根据第三概率分布和第四概率分布,共同确定文本所属的类别,充分利用了文本本身的信息、文本的上下文的信息和历史文本的信息,这样充分挖掘并利用文本的有效信息,可大大提高文本的分类准确性,进而提高了超链接标记的准确性。
在一个实施例中,根据第三概率分布和第四概率分布,确定文本所属的类别的步骤具体包括以下步骤:将第三概率分布和第四概率进行第二融合,得到第五概率分布;在第五概率分布中确定最大的概率;将最大的概率对应的预设类别作为文本所属的类别。
具体地,终端可采用加权求和或相乘等的方式将第三概率分布和第四概率分布融合,得到第五概率分布。终端可通过将第五概率分布中文本分类到预设类别的概率进行逐一比较,确定上述概率中的最大值,将最大值对应的预设类别作为文本所属的类别。
上述实施例中,通过将第三概率分布和第四概率分布进行第二融合,得到第五概率分布,再将文本分类到第五概率分布中最大的概率对应的预设类别,可充分挖掘并利用文本的有效信息,将文本分类到最大概率对应的预设类别,大大提高文本的分类准确性,进而提高了超链接标记的准确性。
在一个实施例中,获取对来源方标识对应的历史文本进行分类的第四概率分布的步骤具体包括:
S602,获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间。
其中,历史文本集合是预设时间段内的历史文本的集合。具体地,终端在确定文本的来源方标识后,从终端本地或通过网络连接等方式获取来源方标识对应的历史文本集合。并且,终端在获取历史文本集合时,可确定历史文本集合中的历史文本的产生时间。
S604,按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集。
具体地,终端可预先设置不同的时间段,按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集。不同的历史文本子集对应不同的时间段。
举例说明,终端可预先设置不同的时间段,比如当日、前一日或前两日等。终端根据历史文本集合中的历史文本的产生时间,确定历史文本的产生时间所属的时间段。再将属于同一个时间段的产生时间所对应的历史文本划分为同一个历史文本子集。比如,所有产生时间为当日的历史文本被划分为一个历史文本子集。
S606,对各历史文本子集按照相应的抽样比例抽取历史文本。
其中,抽样比例是从母本中抽取样本的比例。具体地,终端可确定不同历史文本子集的抽样比例,对各历史文本子集按照相应的抽样比例抽取历史文本。
在一个实施例中,终端可预先设置不同时间段所对应的历史文本子集的抽样比例,再根据抽样比例从各历史文本子集中抽取历史文本。举例说明,终端可预先设置生产时间对应当日的历史文本所组成的第一历史文本子集的抽样比例为50%,生产时间对应前一日的历史文本所组成的第二历史文本子集的抽样比例为30%,生产时间对应前两日的历史文本所组成的第三历史文本子集的抽样比例为20%。因此,终端可按照50%的抽样比例从第一历史文本子集中抽取历史文本,按照30%的抽样比例从第二历史文本子集中抽取历史文本,按照20%的抽样比例从第三历史文本子集中抽取历史文本。
在一个实施例中,终端可预先设置不同时间段所对应的历史文本子集的抽样数量,按照抽样数量从各历史文本子集种抽取历史文本。举例说明,终端可预先设置生产时间对应当日的历史文本所组成的第一历史文本子集的抽样数量为20,生产时间对应前一日的历史文本所组成的第二历史文本子集的抽样数量为10,生产时间对应前两日的历史文本所组成的第三历史文本子集的抽样数量为5。终端可从第一历史文本子集中抽取20个历史文本,从第二历史文本子集中抽取10个历史文本,从第三历史文本子集中抽取5个历史文本。
S608,确定对抽取的历史文本进行分类的第四概率分布。
具体地,终端可采用基于词典的分类方式或已训练好的分类模型等对抽取的历史文本进行分类,得到第四概率分布。
上述实施例中,可根据历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集,使得不同历史文本子集对应不同的时间段。再对各历史文本子集按照相应的抽样比例抽取历史文本。这样可在存在大量历史文本的情况下,适应选择合适数量的历史文本,使得抽取的历史文本能很好的代表历史文本集合。
在一个实施例中,该超链接标记方法还包括访问检索结果所链接的页面的步骤,该步骤包括:
S702,检测对标记有超链接的文本的触发操作。
其中,触发操作是作用于文本的预设操作,检测到触发操作将触发进入步骤S704。触发操作具体可以是触摸操作、光标操作或者按键操作。其中,触摸操作可以是触摸点击操作、触摸按压操作或者触摸滑动操作,触摸操作可以是单点触摸操作或者多点触摸操作;光标操作可以是控制光标进行点击的操作或者控制光标进行按压的操作;按键操作可以是虚拟按键操作或者实体按键操作等。
在一个实施例中,终端展示的文本中,包括标记有超链接的文本和未标记有超链接的文本。终端可在检测到针对标记有超链接的文本的触发操作时,触发步骤S704。
S704,当检测到触发操作时,根据触发操作所对应的链接地址访问目标页面;在目标页面中展示相应的检索结果。
其中,目标页面是当检测到触发操作时终端跳转至的页面,是链接地址所链接的页面,并且,目标页面中展示有检索结果。具体地,终端可在检测到触发操作时,根据触发操作所对应的链接地址访问目标页面。
在一个实施例中,整个文本被标记有唯一一个链接地址,当终端检测到针对有该文本的触发操作时,根据该文本所标记的链接地址访问链接地址所链接的目标页面。
在一个实施例中,文本中的词分别被相应的链接地址所标记,当终端检测到触发操作时,确定该触发操作所作用的词,终端跳转至与触发操作所作用的词相应的链接地址所链接的目标页面。目标页面中展示有根据该词检索得到的检索结果。
S706,检测对展示的检索结果的选中操作。
其中,选中操作是选中目标的操作,具体可以是单击、双击或触摸等操作。具体地,终端访问目标页面,目标页面中展示有检索结果。在一个实施例中,目标页面中展示有多个检索结果,终端可检测针对于检索结果的选中操作。
S708,访问选中操作所选中的检索结果所链接的页面。
具体地,终端可在检测到选中操作时,获取检索结果所链接的页面地址,从而进入当前的软件中嵌入的网页控件或者跳转到浏览器,从而通过该网页控件或者浏览器并根据页面地址拉取跳转页面并渲染。
上述实施例中,当检测到对标记有超链接的文本的触发操作时,根据触发操作所对应的链接地址访问目标页面,并在目标页面中展示相应的检索结果。这样,用户可根据自己的意愿选择展示的检索结果中的一个或多个检索结果进行访问,增加了对文本的标记的超链接满足用户需求的可能性,大大提高了超链接标记的准确性。
在一个实施例中,检索结果按照相应的质量权值排序;超链接标记方法还包括:将选中操作选中检索结果的选中操作记录进行上报,上报的选中操作记录用于调整选中的检索结果相应的质量权值。
其中,质量权值是根据质量的高低而赋予的相应大小的权值。在一个实施例中,终端或服务器可根据检索结果所链接的页面和词序列的匹配度以及页面本身的质量等对该检索结果赋予质量权值。
在一个实施例中,目标页面中展示的检索结果按相应的质量权值排序,质量权值较高的排名靠前,在目标页面中的展示位置也靠前;质量权值较低的排名靠后,在目标页面中的展示位置也靠后。终端在检测到选中操作后,可将选中操作记录上报至终端或服务器,终端或服务器接收到操作记录后,对相应的选中的检索结果的质量权值进行调整,比如按预设比例增加选中的检索结果的质量权值。
上述实施例中,可根据选中操作记录调整选中的检索结果相应的质量权值,并且将检索结果按质量权值排序展示,可优先展示质量较高的检索结果。
如图8所示,在一个具体的实施例中,超链接标记方法包括以下步骤:
S802,展示交互界面,交互界面中展示有内容。
S804,检测对交互界面中所展示内容的文本选择操作。
S806,将检测到的文本选择操作所选中的文本作为待标记的文本。
S808,获取对待标记的文本本身进行分类的第一概率分布。
S810,确定文本的上下文。
S812,获取对上下文进行分类的第二概率分布。
S814,将第一概率分布和第二概率分布进行第一融合,得到第三概率分布。
S816,确定文本的来源方标识。
S818,获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间。
S820,按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集。
S822,对各历史文本子集按照相应的抽样比例抽取历史文本。
S824,确定对抽取的历史文本进行分类的第四概率分布。
S826,将第三概率分布和第四概率进行第二融合,得到第五概率分布。
S828,在第五概率分布中确定最大的概率。
S830,将最大的概率对应的预设类别作为文本所属的类别。
S832,将类别发送至服务器,类别用于指示服务器确定与类别相匹配的分词方式,指示服务器按照分词方式对文本分词,得到词序列,并指示服务器根据词序列中各个词进行检索,得到检索结果。
S834,接收服务器反馈的指向根据相应的词检索得到的检索结果的链接地址。
S836,将每个链接地址标记为文本中相应词的超链接。
S838,检测对标记有超链接的文本的触发操作。
S840,当检测到触发操作时,根据触发操作所对应的链接地址访问目标页面;在目标页面中展示相应的检索结果;检索结果按照相应的质量权值排序。
S842,检测对展示的检索结果的选中操作。
S844,访问选中操作所选中的检索结果所链接的页面。
S846,将选中操作选中检索结果的选中操作记录进行上报,上报的选中操作记录用于调整选中的检索结果相应的质量权值。
上述超链接标记方法,获取待标记的文本,通过确定待标记的文本所属的类别,该类别用于指示与该类别相匹配的分词方式对待标记的文本进行分词,得到词序列,可使得在与该类别对应的领域下对待标记的文本进行细粒度精准分词和释义。再将指向根据词序列检索得到的检索结果的链接地址标记为待标记的文本的超链接。这样,通过与待标记的文本所属的类别相匹配的分词方式对待标记的文本进行分词,大大提高了分词的准确性;通过对分词得到的词序列进行检索,使得检索粒度更细化、检索结果更贴合待标记的文本的含义,大大提高了超链接标记的准确性。
图8为一个实施例中超链接标记方法的流程示意图。应该理解的是,虽然图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
图9为一个实施例中文本分类方法的流程示意图。本实施例主要以该方法应用于上述图1中的终端来举例说明。参照图9,该文本分类方法具体包括如下步骤:
S902,获取待分类的文本。
S904,获取对文本本身进行分类的第一概率分布。
S906,确定文本的上下文。
S908,获取对上下文进行分类的第二概率分布。
S910,将第一概率分布和第二概率分布进行第一融合,得到第三概率分布。
S912,确定文本的来源方标识。
S914,获取对来源方标识对应的历史文本进行分类的第四概率分布。
S916,根据第三概率分布和第四概率分布,确定文本所属的类别。
上述文本分类方法,对待分类的文本本身进行分类,得到第一概率分布;对待分类的文本的上下文进行分类,得到第二概率分布。再将第一概率分布和第二概率分布进行第一融合,得到第三概率分布,这样,可使得第三概率分布和待分类的文本本身、待分类的文本的上下文都相关。通过对文本的来源方标识对应的历史文本进行分类,得到第四概率分布,再根据第三概率分布和第四概率分布,确定文本所属的类别,使得在对文本进行分类时,不仅仅利用了文本本身的信息,还利用了文本的上下文、文本的来源方标识对应的历史文本,充分挖掘了文本的有效信息。这样充分利用文本的有效信息对文本进行分类,可大大提高文本的分类准确性。
在一个实施例中,根据第三概率分布和第四概率分布,确定文本所属的类别的步骤具体包括以下步骤:将第三概率分布和第四概率进行第二融合,得到第五概率分布;在第五概率分布中确定最大的概率;将最大的概率对应的预设类别作为文本所属的类别。
上述实施例中,通过将第三概率分布和第四概率分布进行第二融合,得到第五概率分布,再将文本分类到第五概率分布中最大的概率对应的预设类别,可充分挖掘并利用文本的有效信息,将文本分类到最大概率对应的预设类别,大大提高对文本分类的准确性。
在一个实施例中,获取对来源方标识对应的历史文本进行分类的第四概率分布的步骤具体包括以下步骤:获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间;按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集;对各历史文本子集按照相应的抽样比例抽取历史文本;确定对抽取的历史文本进行分类的第四概率分布。
上述实施例中,可根据历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集,使得不同历史文本子集对应不同的时间段。再对各历史文本子集按照相应的抽样比例抽取历史文本。这样可在存在大量历史文本的情况下,适应选择合适数量的历史文本,使得抽取的历史文本能很好的代表历史文本集合。
如图10所示,在一个具体的实施例中,文本分类方法包括以下步骤:
S1002,获取待分类的文本。
S1004,获取对文本本身进行分类的第一概率分布。
S1006,确定文本的上下文。
S1008,获取对上下文进行分类的第二概率分布。
S1010,将第一概率分布和第二概率分布进行第一融合,得到第三概率分布。
S1012,确定文本的来源方标识。
S1014,获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间。
S1016,按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集。
S1018,对各历史文本子集按照相应的抽样比例抽取历史文本。
S1020,确定对抽取的历史文本进行分类的第四概率分布。
S1022,将第三概率分布和第四概率进行第二融合,得到第五概率分布。
S1024,在第五概率分布中确定最大的概率。
S1026,将最大的概率对应的预设类别作为文本所属的类别。
上述文本分类方法,对待分类的文本本身进行分类,得到第一概率分布;对待分类的文本的上下文进行分类,得到第二概率分布。再将第一概率分布和第二概率分布进行第一融合,得到第三概率分布,这样,可使得第三概率分布和待分类的文本本身、待分类的文本的上下文都相关。通过对文本的来源方标识对应的历史文本进行分类,得到第四概率分布,再根据第三概率分布和第四概率分布,确定文本所属的类别,使得在对文本进行分类时,不仅仅利用了文本本身的信息,还利用了文本的上下文、文本的来源方标识对应的历史文本,充分挖掘了文本的有效信息。这样充分利用文本的有效信息对文本进行分类,可大大提高文本的分类准确性。
图10为一个实施例中文本分类方法的流程示意图。应该理解的是,虽然图10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图10中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在具体的应用场景中,如图11所示,终端展示交互界面,交互界面中展示有文本内容。用户可通过长按或者滑动选中文字以触发超链接标记动作。终端获取用户选中的文本后,将选中的文本作为待标记的文本。如图11所示中的选中“思特里克兰德是个在伦敦做事的证券经纪人”的文字作为待标记的文本。终端对待标记的文本采用上述超链接标记方法对待标记的文本进行超链接标记。图12为一个实施例中终端对待标记的文本中的词进行超链接标记的界面示意图,如图12所示,终端对“思特里克兰德”、“伦敦”和“证券经纪人”分别进行了超链接标记,用户可通过点击标记有超链接的词,以访问目标页面。或者,如图13所示,图13为一个实施例中终端对待标记的文本整体进行超链接标记的界面示意图,比如对“思特里克兰德是个在伦敦做事的证券经纪人”整个文本进行了超链接标记。用户可通过点击标记有超链接的文本,以访问目标页面。图14为一个实施例中目标页面的界面示意图,如图14所示,目标页面中展示有检索结果1、检索结果2、检索结果3…检索结果N-1和检索结果N,当用户点击其中的任意检索结果时,终端的显示界面将跳转至相应的检索结果所链接的页面。
如图15所示,在一个实施例中,提供了一种超链接标记装置1500,包括:获取模块1501、确定模块1502和标记模块1503。
获取模块1501,用于获取待标记的文本。
确定模块1502,用于确定文本所属的类别;类别用于确定与类别相匹配的分词方式,并按照分词方式对文本分词,得到词序列。
获取模块1501还用于获取链接地址,链接地址指向根据词序列检索得到的检索结果。
标记模块1503,用于将链接地址标记为文本的超链接。
上述超链接标记装置,获取待标记的文本,通过确定待标记的文本所属的类别,该类别用于指示与该类别相匹配的分词方式对待标记的文本进行分词,得到词序列,可使得在与该类别对应的领域下对待标记的文本进行细粒度精准分词和释义。再将指向根据词序列检索得到的检索结果的链接地址标记为待标记的文本的超链接。这样,通过与待标记的文本所属的类别相匹配的分词方式对待标记的文本进行分词,大大提高了分词的准确性;通过对分词得到的词序列进行检索,使得检索粒度更细化、检索结果更贴合待标记的文本的含义,大大提高了超链接标记的准确性。
在一个实施例中,获取模块1501还用于获取与词序列中各个词相应的链接地址;每个链接地址指向根据相应的词检索得到的检索结果。标记模块1503还用于将每个链接地址分别标记为文本中相应词的超链接。
上述实施例中,获取与词序列中各个词相应的,并且指向根据相应的词检索得到的检索结果的链接地址,可分别对文本中相应的词进行超链接标记,用户可根据需求选择查看对应的词的检索结果,大大加强了超链接标记的适用性。
在一个实施例中,获取模块1501还用于获取从词序列中筛选的指定词,以及与各个指定词相应的链接地址;指定词是根据用户数据或文本的相关信息筛选得到的。
上述实施例中,根据用户数据或文本的相关信息从词序列中筛选得到指定词,仅对指定词进行检索得到检索结果,可以从词序列的多个词中筛选出符合用户需求的指定词,并得到符合用户需求的检索结果。再获取与各个指定词相应的指向根据相应的词检索得到的检索结果的链接地址,可实现对指定词的快速超链接标记,以满足用户的检索需求。
在一个实施例中,超链接标记装置1500还包括发送模块1504,发送模块1504用于将类别发送至服务器,类别用于指示服务器确定与类别相匹配的分词方式,指示服务器按照分词方式对文本分词,得到词序列,并指示服务器根据词序列进行检索,得到检索结果。获取模块1501还用于接收服务器反馈的指向检索结果的链接地址。
上述实施例中,超链接标记方法应用于移动终端,移动终端确定待标记的文本所属的类别,可保护移动终端的数据,避免泄露。移动终端再将类别发送至服务器,服务器在该类别下进行分词和检索,可以大大提高检索的效率和质量。这样通过移动终端和服务器相结合的超链接标记方法,既保护了移动终端的数据,又提高了超链接标记的效率和质量。
在一个实施例中,获取模块1501还用于展示交互界面,交互界面中展示有内容;检测对交互界面中所展示内容的文本选择操作;将检测到的文本选择操作所选中的文本作为待标记的文本。
上述实施例中,通过展示交互界面,并检测对交互界面中所展示内容的文本选择操作,可以以用户交互为触发,根据用户需求选中待标记的文本,并对待标记的文本进行超链接标记,实现了半自动标记。并且,标记的文本不再局限于特定的词汇或内容,在交互界面中展示的文本都可以根据用户需求进行超链接标记,大大扩展了超链接标记的应用范围。
在一个实施例中,确定模块1502还用于获取对文本本身进行分类的第一概率分布;确定文本的上下文;获取对上下文进行分类的第二概率分布;根据第一概率分布和第二概率分布,确定文本所属的类别。
上述实施例中,通过待标记的文本本身和文本的上下文分别进行分类,得到第一概率分布和第二概率分布,根据第一概率分布和第二概率分布,共同确定文本所属的类别,充分利用了文本本身的信息和文本的上下文的信息,这样充分挖掘并利用文本的有效信息,可大大提高文本的分类准确性,进而提高了超链接标记的准确性。
在一个实施例中,确定模块1502还用于将第一概率分布和第二概率分布进行第一融合,得到第三概率分布;确定文本的来源方标识;获取对来源方标识对应的历史文本进行分类的第四概率分布;根据第三概率分布和第四概率分布,确定文本所属的类别。
上述实施例中,通过将待标记的文本本身和文本的上下文分别进行分类后得到的第一概率分布和第二概率分布进行融合,得到第三概率分布。再对文本的来源方标识对应的历史文本进行分类,得到第四概率分布。根据第三概率分布和第四概率分布,共同确定文本所属的类别,充分利用了文本本身的信息、文本的上下文的信息和历史文本的信息,这样充分挖掘并利用文本的有效信息,可大大提高文本的分类准确性,进而提高了超链接标记的准确性。
在一个实施例中,确定模块1502还用于将第三概率分布和第四概率进行第二融合,得到第五概率分布;在第五概率分布中确定最大的概率;将最大的概率对应的预设类别作为文本所属的类别。
上述实施例中,通过将第三概率分布和第四概率分布进行第二融合,得到第五概率分布,再将文本分类到第五概率分布中最大的概率对应的预设类别,可充分挖掘并利用文本的有效信息,将文本分类到最大概率对应的预设类别,大大提高文本的分类准确性,进而提高了超链接标记的准确性。
在一个实施例中,获取模块1501还用于获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间;按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集;对各历史文本子集按照相应的抽样比例抽取历史文本;确定对抽取的历史文本进行分类的第四概率分布。
上述实施例中,可根据历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集,使得不同历史文本子集对应不同的时间段。再对各历史文本子集按照相应的抽样比例抽取历史文本。这样可在存在大量历史文本的情况下,适应选择合适数量的历史文本,使得抽取的历史文本能很好的代表历史文本集合。
在一个实施例中,超链接标记装置1500还包括检测模块1505和访问模块1506。
检测模块1505,用于检测对标记有超链接的文本的触发操作。
访问模块1506,用于当检测到触发操作时,根据触发操作所对应的链接地址访问目标页面;在目标页面中展示相应的检索结果。
检测模块1505还用于检测对展示的检索结果的选中操作。
访问模块1506还用于访问选中操作所选中的检索结果所链接的页面。
上述实施例中,当检测到对标记有超链接的文本的触发操作时,根据文本所标记的链接地址访问目标页面,并在目标页面中展示检索结果。这样,用户可根据自己的意愿选择展示的检索结果中的一个或多个检索结果进行访问,增加了对文本的标记的超链接满足用户需求的可能性,大大提高了超链接标记的准确性。
如图16所示,在一个实施例中,检索结果按照相应的质量权值排序,超链接标记装置1500还包括上报模块1507,上报模块1507用于将选中操作选中检索结果的选中操作记录进行上报,上报的选中操作记录用于调整选中的检索结果相应的质量权值。
上述实施例中,可根据选中操作记录调整选中的检索结果相应的质量权值,并且将检索结果按质量权值排序展示,可优先展示质量较高的检索结果。
如图17所示,在一个实施例中,提供了一种文本分类装置1700,包括:获取模块1701、确定模块1702和融合模块1703。
获取模块1701,用于获取待分类的文本。
获取模块1701还用于获取对文本本身进行分类的第一概率分布。
确定模块1702,用于确定文本的上下文。
获取模块1701还用于获取对上下文进行分类的第二概率分布。
融合模块1703,用于将第一概率分布和第二概率分布进行第一融合,得到第三概率分布。
确定模块1702还用于确定文本的来源方标识。
获取模块1701还用于获取对来源方标识对应的历史文本进行分类的第四概率分布。
确定模块1702还用于根据第三概率分布和第四概率分布,确定文本所属的类别。
上述文本分类装置,对待分类的文本本身进行分类,得到第一概率分布;对待分类的文本的上下文进行分类,得到第二概率分布。再将第一概率分布和第二概率分布进行第一融合,得到第三概率分布,这样,可使得第三概率分布和待分类的文本本身、待分类的文本的上下文都相关。通过对文本的来源方标识对应的历史文本进行分类,得到第四概率分布,再根据第三概率分布和第四概率分布,确定文本所属的类别,使得在对文本进行分类时,不仅仅利用了文本本身的信息,还利用了文本的上下文、文本的来源方标识对应的历史文本,充分挖掘了文本的有效信息。这样充分利用文本的有效信息对文本进行分类,可大大提高文本的分类准确性。
在一个实施例中,确定模块1702还用于将第三概率分布和第四概率进行第二融合,得到第五概率分布;在第五概率分布中确定最大的概率;将最大的概率对应的预设类别作为文本所属的类别。
上述实施例中,通过将第三概率分布和第四概率分布进行第二融合,得到第五概率分布,再将文本分类到第五概率分布中最大的概率对应的预设类别,可充分挖掘并利用文本的有效信息,将文本分类到最大概率对应的预设类别,大大提高对文本分类的准确性。
在一个实施例中,获取模块1701还用于获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间;按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集;对各历史文本子集按照相应的抽样比例抽取历史文本;确定对抽取的历史文本进行分类的第四概率分布。
上述实施例中,可根据历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集,使得不同历史文本子集对应不同的时间段。再对各历史文本子集按照相应的抽样比例抽取历史文本。这样可在存在大量历史文本的情况下,适应选择合适数量的历史文本,使得抽取的历史文本能很好的代表历史文本集合。
图18示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图18所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现超链接标记方法和/或文本分类方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行超链接标记方法和/或文本分类方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏。
本领域技术人员可以理解,图18中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的超链接标记装置和/或文本分类装置可以实现为一种计算机程序的形式,计算机程序可在如图18所示的计算机设备上运行。计算机设备的存储器中可存储组成该超链接标记装置和/或文本分类装置的各个程序模块,比如,图15所示的获取模块、确定模块和标记模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的超链接标记方法中的步骤。还比如,图17所示的获取模块、确定模块和融合模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的文本分类方法中的步骤。
例如,图18所示的计算机设备可以通过如图15所示的超链接标记装置中的获取模块执行步骤S202和S206。计算机设备可通过确定模块执行步骤S204。计算机设备可通过标记模块执行步骤S208。
还例如,图18所示的计算机设备可以通过如图17所示的文本分类装置中的获取模块执行步骤S902、S904、S908和S914。计算机设备可通过确定模块执行步骤S906、S912、S916、。计算机设备可通过融合模块执行步骤S910。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待标记的文本;确定文本所属的类别;类别用于确定与类别相匹配的分词方式,并按照分词方式对文本分词,得到词序列;获取链接地址,链接地址指向根据词序列检索得到的检索结果;将链接地址标记为文本的超链接。
在一个实施例中,计算机程序使得处理器在执行获取链接地址的步骤时具体执行以下步骤:获取与词序列中各个词相应的链接地址;每个链接地址指向根据相应的词检索得到的检索结果;计算机程序使得处理器在执行将链接地址标记为文本的超链接的步骤时具体执行以下步骤:将每个链接地址分别标记为文本中相应词的超链接。
在一个实施例中,计算机程序使得处理器在执行获取与词序列中各个词相应的链接地址的步骤时具体执行以下步骤:获取从词序列中筛选的指定词,以及与各个指定词相应的链接地址;指定词是根据用户数据或文本的相关信息筛选得到的。
在一个实施例中,计算机程序使得还处理器执行以下步骤:将类别发送至服务器,类别用于指示服务器确定与类别相匹配的分词方式,指示服务器按照分词方式对文本分词,得到词序列,并指示服务器根据词序列进行检索,得到检索结果;接收服务器反馈的指向检索结果的链接地址。
在一个实施例中,计算机程序使得处理器在执行获取待标记的文本的步骤时具体执行以下步骤:展示交互界面,交互界面中展示有内容;检测对交互界面中所展示内容的文本选择操作;将检测到的文本选择操作所选中的文本作为待标记的文本。
在一个实施例中,计算机程序使得处理器在执行确定文本所属的类别的步骤时具体执行以下步骤:获取对文本本身进行分类的第一概率分布;确定文本的上下文;获取对上下文进行分类的第二概率分布;根据第一概率分布和第二概率分布,确定文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行根据第一概率分布和第二概率分布,确定文本所属的类别的步骤时具体执行以下步骤:将第一概率分布和第二概率分布进行第一融合,得到第三概率分布;确定文本的来源方标识;获取对来源方标识对应的历史文本进行分类的第四概率分布;根据第三概率分布和第四概率分布,确定文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行根据第三概率分布和第四概率分布,确定文本所属的类别的步骤时具体执行以下步骤:将第三概率分布和第四概率进行第二融合,得到第五概率分布;在第五概率分布中确定最大的概率;将最大的概率对应的预设类别作为文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行获取对来源方标识对应的历史文本进行分类的第四概率分布的步骤时具体执行以下步骤:获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间;按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集;对各历史文本子集按照相应的抽样比例抽取历史文本;确定对抽取的历史文本进行分类的第四概率分布。
在一个实施例中,计算机程序使得还处理器执行以下步骤:检测对标记有超链接的文本的触发操作;当检测到触发操作时,根据触发操作所对应的链接地址访问目标页面;在目标页面中展示相应的检索结果;检测对展示的检索结果的选中操作;访问选中操作所选中的检索结果所链接的页面。
在一个实施例中,检索结果按照相应的质量权值排序,计算机程序使得还处理器执行以下步骤:将选中操作选中检索结果的选中操作记录进行上报,上报的选中操作记录用于调整选中的检索结果相应的质量权值。
上述计算机设备,获取待标记的文本,通过确定待标记的文本所属的类别,该类别用于指示与该类别相匹配的分词方式对待标记的文本进行分词,得到词序列,可使得在与该类别对应的领域下对待标记的文本进行细粒度精准分词和释义。再将指向根据词序列检索得到的检索结果的链接地址标记为待标记的文本的超链接。这样,通过与待标记的文本所属的类别相匹配的分词方式对待标记的文本进行分词,大大提高了分词的准确性;通过对分词得到的词序列进行检索,使得检索粒度更细化、检索结果更贴合待标记的文本的含义,大大提高了超链接标记的准确性。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取待分类的文本;获取对文本本身进行分类的第一概率分布;确定文本的上下文;获取对上下文进行分类的第二概率分布;将第一概率分布和第二概率分布进行第一融合,得到第三概率分布;确定文本的来源方标识;获取对来源方标识对应的历史文本进行分类的第四概率分布;根据第三概率分布和第四概率分布,确定文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行根据第三概率分布和第四概率分布,确定文本所属的类别的步骤时具体执行以下步骤:将第三概率分布和第四概率进行第二融合,得到第五概率分布;在第五概率分布中确定最大的概率;将最大的概率对应的预设类别作为文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行获取对来源方标识对应的历史文本进行分类的第四概率分布的步骤时具体执行以下步骤:获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间;按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集;对各历史文本子集按照相应的抽样比例抽取历史文本;确定对抽取的历史文本进行分类的第四概率分布。
上述计算机设备,对待分类的文本本身进行分类,得到第一概率分布;对待分类的文本的上下文进行分类,得到第二概率分布。再将第一概率分布和第二概率分布进行第一融合,得到第三概率分布,这样,可使得第三概率分布和待分类的文本本身、待分类的文本的上下文都相关。通过对文本的来源方标识对应的历史文本进行分类,得到第四概率分布,再根据第三概率分布和第四概率分布,确定文本所属的类别,使得在对文本进行分类时,不仅仅利用了文本本身的信息,还利用了文本的上下文、文本的来源方标识对应的历史文本,充分挖掘了文本的有效信息。这样充分利用文本的有效信息对文本进行分类,可大大提高文本的分类准确性。
一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:获取待标记的文本;确定文本所属的类别;类别用于确定与类别相匹配的分词方式,并按照分词方式对文本分词,得到词序列;获取链接地址,链接地址指向根据词序列检索得到的检索结果;将链接地址标记为文本的超链接。
在一个实施例中,计算机程序使得处理器在执行获取链接地址的步骤时具体执行以下步骤:获取与词序列中各个词相应的链接地址;每个链接地址指向根据相应的词检索得到的检索结果;计算机程序使得处理器在执行将链接地址标记为文本的超链接的步骤时具体执行以下步骤:将每个链接地址分别标记为文本中相应词的超链接。
在一个实施例中,计算机程序使得处理器在执行获取与词序列中各个词相应的链接地址的步骤时具体执行以下步骤:获取从词序列中筛选的指定词,以及与各个指定词相应的链接地址;指定词是根据用户数据或文本的相关信息筛选得到的。
在一个实施例中,计算机程序使得还处理器执行以下步骤:将类别发送至服务器,类别用于指示服务器确定与类别相匹配的分词方式,指示服务器按照分词方式对文本分词,得到词序列,并指示服务器根据词序列进行检索,得到检索结果;接收服务器反馈的指向检索结果的链接地址。
在一个实施例中,计算机程序使得处理器在执行获取待标记的文本的步骤时具体执行以下步骤:展示交互界面,交互界面中展示有内容;检测对交互界面中所展示内容的文本选择操作;将检测到的文本选择操作所选中的文本作为待标记的文本。
在一个实施例中,计算机程序使得处理器在执行确定文本所属的类别的步骤时具体执行以下步骤:获取对文本本身进行分类的第一概率分布;确定文本的上下文;获取对上下文进行分类的第二概率分布;根据第一概率分布和第二概率分布,确定文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行根据第一概率分布和第二概率分布,确定文本所属的类别的步骤时具体执行以下步骤:将第一概率分布和第二概率分布进行第一融合,得到第三概率分布;确定文本的来源方标识;获取对来源方标识对应的历史文本进行分类的第四概率分布;根据第三概率分布和第四概率分布,确定文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行根据第三概率分布和第四概率分布,确定文本所属的类别的步骤时具体执行以下步骤:将第三概率分布和第四概率进行第二融合,得到第五概率分布;在第五概率分布中确定最大的概率;将最大的概率对应的预设类别作为文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行获取对来源方标识对应的历史文本进行分类的第四概率分布的步骤时具体执行以下步骤:获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间;按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集;对各历史文本子集按照相应的抽样比例抽取历史文本;确定对抽取的历史文本进行分类的第四概率分布。
在一个实施例中,计算机程序使得还处理器执行以下步骤:检测对标记有超链接的文本的触发操作;当检测到触发操作时,根据触发操作所对应的链接地址访问目标页面;在目标页面中展示相应的检索结果;检测对展示的检索结果的选中操作;访问选中操作所选中的检索结果所链接的页面。
在一个实施例中,检索结果按照相应的质量权值排序,计算机程序使得还处理器执行以下步骤:将选中操作选中检索结果的选中操作记录进行上报,上报的选中操作记录用于调整选中的检索结果相应的质量权值。
上述计算机可读存储介质,获取待标记的文本,通过确定待标记的文本所属的类别,该类别用于指示与该类别相匹配的分词方式对待标记的文本进行分词,得到词序列,可使得在与该类别对应的领域下对待标记的文本进行细粒度精准分词和释义。再将指向根据词序列检索得到的检索结果的链接地址标记为待标记的文本的超链接。这样,通过与待标记的文本所属的类别相匹配的分词方式对待标记的文本进行分词,大大提高了分词的准确性;通过对分词得到的词序列进行检索,使得检索粒度更细化、检索结果更贴合待标记的文本的含义,大大提高了超链接标记的准确性。
一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:获取待分类的文本;获取对文本本身进行分类的第一概率分布;确定文本的上下文;获取对上下文进行分类的第二概率分布;将第一概率分布和第二概率分布进行第一融合,得到第三概率分布;确定文本的来源方标识;获取对来源方标识对应的历史文本进行分类的第四概率分布;根据第三概率分布和第四概率分布,确定文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行根据第三概率分布和第四概率分布,确定文本所属的类别的步骤时具体执行以下步骤:将第三概率分布和第四概率进行第二融合,得到第五概率分布;在第五概率分布中确定最大的概率;将最大的概率对应的预设类别作为文本所属的类别。
在一个实施例中,计算机程序使得处理器在执行获取对来源方标识对应的历史文本进行分类的第四概率分布的步骤时具体执行以下步骤:获取来源方标识对应的历史文本集合,以及历史文本集合中历史文本的产生时间;按照历史文本集合中历史文本的产生时间所属的时间段,将历史文本集合划分为不同的历史文本子集;对各历史文本子集按照相应的抽样比例抽取历史文本;确定对抽取的历史文本进行分类的第四概率分布。
上述计算机可读存储介质,对待分类的文本本身进行分类,得到第一概率分布;对待分类的文本的上下文进行分类,得到第二概率分布。再将第一概率分布和第二概率分布进行第一融合,得到第三概率分布,这样,可使得第三概率分布和待分类的文本本身、待分类的文本的上下文都相关。通过对文本的来源方标识对应的历史文本进行分类,得到第四概率分布,再根据第三概率分布和第四概率分布,确定文本所属的类别,使得在对文本进行分类时,不仅仅利用了文本本身的信息,还利用了文本的上下文、文本的来源方标识对应的历史文本,充分挖掘了文本的有效信息。这样充分利用文本的有效信息对文本进行分类,可大大提高文本的分类准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (18)
1.一种超链接标记方法,包括:
获取待标记的文本;
确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;
获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;
将所述链接地址标记为所述文本的超链接。
2.根据权利要求1所述的方法,其特征在于,所述获取链接地址包括:
获取与所述词序列中各个词相应的链接地址;每个所述链接地址指向根据相应的词检索得到的检索结果;
所述将所述链接地址标记为所述文本的超链接,包括:
将每个所述链接地址分别标记为所述文本中相应词的超链接。
3.根据权利要求2所述的方法,其特征在于,所述获取与所述词序列中各个词相应的链接地址,包括:
获取从所述词序列中筛选的指定词,以及与各个所述指定词相应的链接地址;所述指定词是根据用户数据或所述文本的相关信息筛选得到的。
4.根据权利要求1所述的方法,其特征在于,所述方法应用于移动终端,所述方法还包括:
将所述类别发送至服务器,所述类别用于指示所述服务器确定与所述类别相匹配的分词方式,指示所述服务器按照所述分词方式对所述文本分词,得到词序列,并指示所述服务器根据所述词序列进行检索,得到检索结果;
所述获取链接地址包括:
接收所述服务器反馈的指向所述检索结果的链接地址。
5.根据权利要求1所述的方法,其特征在于,所述获取待标记的文本包括:
展示交互界面,所述交互界面中展示有内容;
检测对所述交互界面中所展示内容的文本选择操作;
将检测到的文本选择操作所选中的文本作为待标记的文本。
6.根据权利要求1所述的方法,其特征在于,所述确定所述文本所属的类别,包括:
获取对所述文本本身进行分类的第一概率分布;
确定所述文本的上下文;
获取对所述上下文进行分类的第二概率分布;
根据所述第一概率分布和所述第二概率分布,确定所述文本所属的类别。
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一概率分布和所述第二概率分布,确定所述文本所属的类别,包括:
将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;
确定所述文本的来源方标识;
获取对所述来源方标识对应的历史文本进行分类的第四概率分布;
根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别,包括:
将所述第三概率分布和所述第四概率进行第二融合,得到第五概率分布;
在所述第五概率分布中确定最大的概率;
将所述最大的概率对应的预设类别作为所述文本所属的类别。
9.根据权利要求7所述的方法,其特征在于,所述获取对所述来源方标识对应的历史文本进行分类的第四概率分布,包括:
获取所述来源方标识对应的历史文本集合,以及所述历史文本集合中历史文本的产生时间;
按照所述历史文本集合中历史文本的产生时间所属的时间段,将所述历史文本集合划分为不同的历史文本子集;
对各所述历史文本子集按照相应的抽样比例抽取历史文本;
确定对抽取的历史文本进行分类的第四概率分布。
10.根据权利要求1至9中任一项所述的方法,其特征在于,还包括:
检测对标记有所述超链接的所述文本的触发操作;
当检测到所述触发操作时,根据所述触发操作所对应的链接地址访问目标页面;在所述目标页面中展示相应的检索结果;
检测对展示的检索结果的选中操作;
访问所述选中操作所选中的检索结果所链接的页面。
11.根据权利要求10所述的方法,其特征在于,所述检索结果按照相应的质量权值排序,所述方法还包括:
将所述选中操作选中所述检索结果的选中操作记录进行上报,上报的选中操作记录用于调整选中的检索结果相应的质量权值。
12.一种文本分类方法,包括:
获取待分类的文本;
获取对所述文本本身进行分类的第一概率分布;
确定所述文本的上下文;
获取对所述上下文进行分类的第二概率分布;
将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;
确定所述文本的来源方标识;
获取对所述来源方标识对应的历史文本进行分类的第四概率分布;
根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别。
13.根据权利要求12所述的方法,其特征在于,所述根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别,包括:
将所述第三概率分布和所述第四概率进行第二融合,得到第五概率分布;
在所述第五概率分布中确定最大的概率;
将所述最大的概率对应的预设类别作为所述文本所属的类别。
14.根据权利要求12或13所述的方法,其特征在于,所述获取对所述来源方标识对应的历史文本进行分类的第四概率分布,包括:
获取所述来源方标识对应的历史文本集合,以及所述历史文本集合中历史文本的产生时间;
按照所述历史文本集合中历史文本的产生时间所属的时间段,将所述历史文本集合划分为不同的历史文本子集;
对各所述历史文本子集按照相应的抽样比例抽取历史文本;
确定对抽取的历史文本进行分类的第四概率分布。
15.一种超链接标记装置,其特征在于,所述装置包括:
获取模块,用于获取待标记的文本;
确定模块,用于确定所述文本所属的类别;所述类别用于确定与所述类别相匹配的分词方式,并按照所述分词方式对所述文本分词,得到词序列;
所述获取模块还用于获取链接地址,所述链接地址指向根据所述词序列检索得到的检索结果;
标记模块,用于将所述链接地址标记为所述文本的超链接。
16.一种文本分类装置,其特征在于,所述装置包括:
获取模块,用于获取待分类的文本;
所述获取模块还用于获取对所述文本本身进行分类的第一概率分布;
确定模块,用于确定所述文本的上下文;
所述获取模块还用于获取对所述上下文进行分类的第二概率分布;
融合模块,用于将所述第一概率分布和第二概率分布进行第一融合,得到第三概率分布;
所述确定模块还用于确定所述文本的来源方标识;
所述获取模块还用于获取对所述来源方标识对应的历史文本进行分类的第四概率分布;
所述确定模块还用于根据所述第三概率分布和所述第四概率分布,确定所述文本所属的类别。
17.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至14中任一项所述方法的步骤。
18.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至14中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810091591.6A CN110096695B (zh) | 2018-01-30 | 2018-01-30 | 超链接标记方法和装置、文本分类方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810091591.6A CN110096695B (zh) | 2018-01-30 | 2018-01-30 | 超链接标记方法和装置、文本分类方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110096695A true CN110096695A (zh) | 2019-08-06 |
CN110096695B CN110096695B (zh) | 2023-01-03 |
Family
ID=67442723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810091591.6A Active CN110096695B (zh) | 2018-01-30 | 2018-01-30 | 超链接标记方法和装置、文本分类方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110096695B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886569A (zh) * | 2020-06-16 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013143362A1 (zh) * | 2012-03-29 | 2013-10-03 | 腾讯科技(深圳)有限公司 | 一种为文本添加超级链接的方法,装置以及计算机存储介质 |
CN103605702A (zh) * | 2013-11-08 | 2014-02-26 | 北京邮电大学 | 一种基于词相似度的网络文本分类方法 |
CN103617222A (zh) * | 2013-11-22 | 2014-03-05 | 北京奇虎科技有限公司 | 一种网页中进行预下载的方法和浏览器 |
CN104008126A (zh) * | 2014-03-31 | 2014-08-27 | 北京奇虎科技有限公司 | 一种基于网页内容分类进行分词处理的方法和装置 |
CN104102639A (zh) * | 2013-04-02 | 2014-10-15 | 腾讯科技(深圳)有限公司 | 基于文本分类的推广触发方法和装置 |
CN104252479A (zh) * | 2013-06-27 | 2014-12-31 | 华为技术有限公司 | 信息的处理方法、装置和系统 |
CN104317783A (zh) * | 2014-09-16 | 2015-01-28 | 北京航空航天大学 | 一种语义关系密切度的计算方法 |
CN104850617A (zh) * | 2015-05-15 | 2015-08-19 | 百度在线网络技术(北京)有限公司 | 短文本处理方法及装置 |
CN105550227A (zh) * | 2015-12-07 | 2016-05-04 | 中国建设银行股份有限公司 | 一种命名实体识别方法及装置 |
CN105574162A (zh) * | 2015-12-16 | 2016-05-11 | 南京鼎岩信息科技有限公司 | 关键字自动超级链接的方法 |
CN105893422A (zh) * | 2015-12-03 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 在视频播放页面中创建超链接的方法、系统、以及服务器 |
CN106919540A (zh) * | 2016-08-02 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 文本的显示方法、系统及装置 |
CN110209805A (zh) * | 2018-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质和计算机设备 |
-
2018
- 2018-01-30 CN CN201810091591.6A patent/CN110096695B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013143362A1 (zh) * | 2012-03-29 | 2013-10-03 | 腾讯科技(深圳)有限公司 | 一种为文本添加超级链接的方法,装置以及计算机存储介质 |
US20140250356A1 (en) * | 2012-03-29 | 2014-09-04 | Tencent Technology (Shenzhen) Company Limited | Method, device, and computer storage media for adding hyperlink to text |
CN104102639A (zh) * | 2013-04-02 | 2014-10-15 | 腾讯科技(深圳)有限公司 | 基于文本分类的推广触发方法和装置 |
CN104252479A (zh) * | 2013-06-27 | 2014-12-31 | 华为技术有限公司 | 信息的处理方法、装置和系统 |
CN103605702A (zh) * | 2013-11-08 | 2014-02-26 | 北京邮电大学 | 一种基于词相似度的网络文本分类方法 |
CN103617222A (zh) * | 2013-11-22 | 2014-03-05 | 北京奇虎科技有限公司 | 一种网页中进行预下载的方法和浏览器 |
CN104008126A (zh) * | 2014-03-31 | 2014-08-27 | 北京奇虎科技有限公司 | 一种基于网页内容分类进行分词处理的方法和装置 |
WO2015149533A1 (zh) * | 2014-03-31 | 2015-10-08 | 北京奇虎科技有限公司 | 一种基于网页内容分类进行分词处理的方法和装置 |
CN104317783A (zh) * | 2014-09-16 | 2015-01-28 | 北京航空航天大学 | 一种语义关系密切度的计算方法 |
CN104850617A (zh) * | 2015-05-15 | 2015-08-19 | 百度在线网络技术(北京)有限公司 | 短文本处理方法及装置 |
CN105893422A (zh) * | 2015-12-03 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 在视频播放页面中创建超链接的方法、系统、以及服务器 |
CN105550227A (zh) * | 2015-12-07 | 2016-05-04 | 中国建设银行股份有限公司 | 一种命名实体识别方法及装置 |
CN105574162A (zh) * | 2015-12-16 | 2016-05-11 | 南京鼎岩信息科技有限公司 | 关键字自动超级链接的方法 |
CN106919540A (zh) * | 2016-08-02 | 2017-07-04 | 阿里巴巴集团控股有限公司 | 文本的显示方法、系统及装置 |
CN110209805A (zh) * | 2018-04-26 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 文本分类方法、装置、存储介质和计算机设备 |
Non-Patent Citations (4)
Title |
---|
JASON MCC. SMITH等: "An orthogonal taxonomy for hyperlink anchor generation in video streams using OvalTine", 《PROCEEDINGS OF THE ELEVENTH ACM ON HYPERTEXT AND HYPERMEDIA》 * |
SUPER-BATMAN: "超链接标记", 《CSDN博客》 * |
应晓敏等: "智能Web浏览器及其关键技术", 《计算机科学》 * |
钟敏娟: "基于超链接和标记文本的信息检索算法", 《小型微型计算机系统》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886569A (zh) * | 2020-06-16 | 2022-01-04 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
CN113886569B (zh) * | 2020-06-16 | 2023-07-25 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110096695B (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7206288B2 (ja) | 音楽推薦方法、装置、コンピューティング機器及び媒体 | |
US10217058B2 (en) | Predicting interesting things and concepts in content | |
Koch et al. | VarifocalReader—in-depth visual analysis of large text documents | |
CN101542486B (zh) | 排序图 | |
US9058327B1 (en) | Enhancing training of predictive coding systems through user selected text | |
CN108228873A (zh) | 对象推荐、发布内容推送方法、装置、存储介质和设备 | |
CN107122400B (zh) | 使用视觉提示细化查询结果的方法、计算系统及存储介质 | |
CN110019943B (zh) | 视频推荐方法、装置、电子设备和存储介质 | |
CN105653134B (zh) | 应用切换方法及其系统 | |
CN104216881A (zh) | 一种个性化标签的推荐方法及装置 | |
CN104836720A (zh) | 交互式通信中进行信息推荐的方法及装置 | |
CN103098051A (zh) | 搜索引擎优化助理 | |
CN105677780A (zh) | 可拓展的用户意图挖掘方法及其系统 | |
CN105512180B (zh) | 一种搜索推荐方法及装置 | |
US20140229810A1 (en) | Topic extraction and video association | |
CN110888990A (zh) | 文本推荐方法、装置、设备及介质 | |
CN104102733B (zh) | 搜索内容提供方法和搜索引擎 | |
CN107562939A (zh) | 垂直领域新闻推荐方法、装置及可读储存介质 | |
JP2020135891A (ja) | 検索提案を提供する方法、装置、機器及び媒体 | |
CN105488221A (zh) | 一种在搜索界面推荐查询词进行搜索的方法和系统 | |
CN104077337A (zh) | 搜索方法及装置 | |
CN108153754B (zh) | 一种数据处理方法及其装置 | |
CN110347314A (zh) | 一种内容展示方法、装置、存储介质和计算机设备 | |
US20220382795A1 (en) | Method and system for detection of misinformation | |
Sara-Meshkizadeh et al. | Webpage classification based on compound of using HTML features & URL features and features of sibling pages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |