CN114386407A - 文本的分词方法及装置 - Google Patents

文本的分词方法及装置 Download PDF

Info

Publication number
CN114386407A
CN114386407A CN202111593262.XA CN202111593262A CN114386407A CN 114386407 A CN114386407 A CN 114386407A CN 202111593262 A CN202111593262 A CN 202111593262A CN 114386407 A CN114386407 A CN 114386407A
Authority
CN
China
Prior art keywords
grained
coarse
word segmentation
participle
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111593262.XA
Other languages
English (en)
Other versions
CN114386407B (zh
Inventor
李刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jindi Technology Co Ltd
Original Assignee
Beijing Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jindi Technology Co Ltd filed Critical Beijing Jindi Technology Co Ltd
Priority to CN202111593262.XA priority Critical patent/CN114386407B/zh
Publication of CN114386407A publication Critical patent/CN114386407A/zh
Application granted granted Critical
Publication of CN114386407B publication Critical patent/CN114386407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种文本的分词方法及装置,涉及自然语言处理技术领域。其中,所述方法包括:获取待分词的文本的粗粒度分词结果和细粒度分词结果;对所述粗粒度分词结果中的粗粒度分词进行遍历,以确定所述粗粒度分词的字符长度;根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果;根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果。本方案能够有效确保文本的分词粒度适中,从而有效提高文本的分词的准确率。

Description

文本的分词方法及装置
技术领域
本申请实施例涉及自然语言处理技术领域,尤其涉及一种文本的分词方法、装置、电子设备及计算机存储介质。
背景技术
在互联网高速发展的信息时代,搜索引擎是人们获得有效信息的强有力手段之一。中文搜索引擎的重点在于中文关键信息提取,其中的难点就是中文自动分词。一种良好的中文分词方式,可以有效的帮助搜索引擎增加信息检索准确性与时效性。
目前,搜索引擎中使用的中文分词方式为通过分词器进行分词,但是分词器过分依赖于词典,如果词典覆盖不全,则会导致分词结果为单字或者较长,即导致分词粒度过大或者过小,进而影响检索命中率。
由此可见,如何有效确保文本的分词结果粒度适中,从而有效提高检索命中率成为当前亟待解决的技术问题。
发明内容
有鉴于此,本发明实施例所解决的技术问题之一在于提供一种文本的分词方法及装置,用以解决现有技术中存在的如何有效确保文本的分词结果粒度适中,从而有效提高检索命中率的技术问题。
根据本发明实施例的第一方面,提供了一种文本的分词方法,所述方法包括:获取待分词的文本的粗粒度分词结果和细粒度分词结果;对所述粗粒度分词结果中的粗粒度分词进行遍历,以确定所述粗粒度分词的字符长度;根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果;根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果。
根据本发明实施例的第二方面,提供了一种文本的分词装置,所述装置包括:获取模块,用于获取待分词的文本的粗粒度分词结果和细粒度分词结果;遍历模块,用于对所述粗粒度分词结果中的粗粒度分词进行遍历,以确定所述粗粒度分词的字符长度;修正模块,用于根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果;确定模块,用于根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述的文本的分词方法对应的操作。
根据本发明实施例的第四方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的文本的分词方法。
通过本发明实施例提供的文本的分词方案,根据待分词的文本的粗粒度分词结果中的粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,并根据修正后的所述粗粒度分词结果和所述文本的细粒度分词结果,确定所述文本的最终分词结果,能够有效确保文本的分词结果粒度适中,从而有效提高检索命中率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1A为本实施例一中文本的分词方法的步骤流程图;
图1B为根据本实施例一提供的文本分词过程的示意图;
图2为本实施例二中文本的分词装置的结构示意图;
图3为本实施例三中电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
下面结合本发明实施例附图进一步说明本发明实施例具体实现。
参照图1A,示出了本实施例一中文本的分词方法的步骤流程图。
具体地,本实施例提供的文本的分词方法包括以下步骤:
在步骤S101中,获取待分词的文本的粗粒度分词结果和细粒度分词结果。
在本实施例中,所述待分词的文本可为搜索语句或者基于搜索语句搜索得到的搜索文档。所述粗粒度分词结果可理解为采用粗粒度对文本进行分词所获得的结果,例如,“自然语言处理”可以切分为“自然语言”和“处理”。所述细粒度分词结果可理解为采用细粒度对文本进行分词所获得的结果。例如,语句“自然语言处理”可以切分为“自然”、“语言”和“处理”。在具体实现时,可通过IK分词器,对所述文本分别进行粗粒度切分和细粒度切分,以获得所述文本的粗粒度分词结果和细粒度分词结果。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S102中,对所述粗粒度分词结果中的粗粒度分词进行遍历,以确定所述粗粒度分词的字符长度。
在本实施例中,可以采用用于遍历分词的线程,对所述粗粒度分词结果中的粗粒度分词进行遍历,以确定所述粗粒度分词的字符长度。其中,所述粗粒度分词的字符长度可理解为所述粗粒度分词的字符数量。例如,“自然语言处理”的中文字符数量为6个,那么“自然语言处理”的字符长度为6。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在对所述粗粒度分词结果中的粗粒度分词进行遍历之前,所述方法还包括:对所述粗粒度分词结果中的粗粒度分词的数量进行统计,以获得所述粗粒度分词结果中的粗粒度分词的数量;对所述细粒度分词结果中的细粒度分词的数量进行统计,以获得所述细粒度分词结果中的细粒度分词的数量;响应于确定所述粗粒度分词结果中的粗粒度分词的数量和/或所述细粒度分词结果中的细粒度分词的数量不为预设分词数量,执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤。籍此,在确定所述粗粒度分词结果中的粗粒度分词的数量不为预设分词数量和/或所述细粒度分词结果中的细粒度分词的数量不为所述预设分词数量的情况下,执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤,而不是在任何情况下均执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤,能够有效提高文本的分词效率。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,所述方法还包括:响应于确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量,执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理,以获得所述文本的分词结果的步骤。籍此,在确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量的情况下,执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理,以获得所述文本的分词结果的步骤,能够有效提高文本的分词效率。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述预设分词数量可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。例如,所述预设分词数量可为1或2等。在对所述粗粒度分词结果和所述细粒度分词结果进行合并处理时,对所述粗粒度分词结果中的粗粒度分词和所述细粒度分词结果中的细粒度分词进行去重,以获得所述文本的分词结果。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,所述确定所述粗粒度分词的字符长度之前,所述方法还包括:响应于确定所述粗粒度分词为预设的词类型,将所述粗粒度分词添加到修正后的所述粗粒度分词结果;响应于确定所述粗粒度分词不为所述词类型,执行所述确定所述粗粒度分词的字符长度的步骤。籍此,在确定所述粗粒度分词为预设的词类型的情况下,将所述粗粒度分词添加到修正后的所述粗粒度分词结果,能够有效确保修正后的所述粗粒度分词结果的准确度。此外,在确定所述粗粒度分词不为所述词类型的情况下,执行所述确定所述粗粒度分词的字符长度的步骤,能够有效提高文本的分词效率。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述预设的词类型可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。例如,所述预设的词类型可为地址分词或者非中文分词。一般而言,地址分词或者非中文分词的字符长度较大,且具有特定含义,无需再对地址分词或者非中文分词进行细粒度切分,以免影响词语自身的含义。因此,在确定所述粗粒度分词为地址分词或者非中文分词的情况下,无需再对所述粗粒度分词进行细粒度切分,以免影响对所述粗粒度分词结果修正的准确度。此外,在确定所述粗粒度分词是否为地址分词时,可以对预先配置的地址词表中的地址词汇进行遍历;响应于确定所述地址词表中存在所述粗粒度分词,确定所述粗粒度分词为地址分词;响应于确定所述地址词表中不存在所述粗粒度分词,确定所述粗粒度分词不为地址分词。在确定所述粗粒度分词是否为非中文分词时,可以通过非中文分词的正则表达式,确定所述粗粒度分词是否为非中文分词。具体地,响应于确定所述粗粒度分词与非中文分词的正则表达式匹配,确定所述粗粒度分词为非中文分词;响应于确定所述粗粒度分词与非中文分词的正则表达式不匹配,确定所述粗粒度分词不为非中文分词。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S103中,根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果。
在一些可选实施例中,在根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正时,响应于确定所述粗粒度分词的字符长度为第一预设字符长度,并且与所述粗粒度分词相邻的后一个粗粒度分词的字符长度大于所述第一预设字符长度,则将所述粗粒度分词添加到修正后的所述粗粒度分词结果;和/或,响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度、在所述粗粒度分词之后的至少一个连续的粗粒度分词的字符长度均为所述第一预设字符长度,以及所述至少一个连续的粗粒度分词的数量不超过预设数量,粘合连接所述粗粒度分词和所述至少一个连续的粗粒度分词,获得所述粗粒度分词的修正结果,并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果;和/或,响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度,并且所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词,粘合连接所述粗粒度分词和与所述粗粒度分词相邻的前一个粗粒度分词,获得所述粗粒度分词的修正结果,并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果。其中,所述第一预设字符长度可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。例如,所述第一预设字符长度可为1或2或3等。籍此,本发明实施例能够有效避免分词为单字导致分词粒度过小的问题,有效确保文本的分词粒度适中,从而有效提高文本的分词的准确率。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,如果所述粗粒度分词结果中的当前粗粒度分词的字符长度为1,并且与所当前粗粒度分词相邻的后一个粗粒度分词的字符长度大于1,则将当前粗粒度分词添加到修正后的粗粒度分词结果中。如果所述粗粒度分词结果中的当前粗粒度分词的字符长度为1,并且在当前粗粒度分词之后的相邻的粗粒度分词的字符长度为1,粘合连接当前粗粒度分词和在当前粗粒度分词之后的相邻的粗粒度分词,获得当前粗粒度分词的修正结果,并将当前粗粒度分词的修正结果添加到修正后的粗粒度分词结果中。如果所述粗粒度分词结果中的当前粗粒度分词的字符长度为1,并且在当前粗粒度分词之后的两个连续的粗粒度分词的字符长度均为1,粘合连接当前粗粒度分词和两个连续的粗粒度分词,获得当前粗粒度分词的修正结果,并将当前粗粒度分词的修正结果添加到修正后的粗粒度分词结果中。如果所述粗粒度分词结果中的当前粗粒度分词的字符长度为1,并且当前粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词,粘合连接当前粗粒度分词和与当前粗粒度分词相邻的前一个粗粒度分词,获得当前粗粒度分词的修正结果,并将当前粗粒度分词的修正结果添加到修正后的粗粒度分词结果中。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正时,响应于确定所述粗粒度分词的字符长度为第二预设字符长度或者第三预设字符长度,将所述粗粒度分词添加到修正后的所述粗粒度分词结果。其中,所述第二预设字符长度可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。例如,所述第二预设字符长度可为2或3等。所述第三预设字符长度可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。例如,所述第三预设字符长度可为3或4等。籍此,能够有效确保文本的分词粒度适中,从而有效提高文本的分词的准确率。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,在根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正时,响应于确定所述粗粒度分词的字符长度大于或等于第四预设字符长度,以第五预设字符长度设置的窗口,对所述粗粒度分词进行遍历,以获得所述粗粒度分词的第一分词结果,并以第六预设字符长度设置的窗口,对所述粗粒度分词进行遍历,以获得所述粗粒度分词的第二分词结果,其中,所述第六预设字符长度大于所述第五预设字符长度;响应于确定所述第二分词结果中存在分词,并且所述分词存在于所述细粒度分词结果中,将所述分词添加到修正后的所述粗粒度分词结果;响应于确定所述第二分词结果中不存在分词,或者所述第二分词结果中存在的分词不存在于所述细粒度分词结果中,将所述粗粒度分词的第一分词结果添加到修正后的所述粗粒度分词结果。籍此,能够有效避免分词过长导致分词粒度过大的问题,有效确保文本的分词粒度适中,从而有效提高文本的分词的准确率。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,所述第四预设字符长度可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。例如,所述第四预设字符长度可为4。所述第五预设字符长度可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。例如,所述第五预设字符长度可为2。所述第六预设字符长度可由本领域技术人员根据实际需要进行设定,本实施例对此不做任何限定。例如,所述第六预设字符长度可为3。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,设置第一最优词长optiLen和第二最优词长loptiLen。其中,optiLen可为2,loptiLen可为3。以optiLen设置的窗口,对粗粒度分词结果中的当前粗粒度分词进行遍历,以获得当前粗粒度分词的分词结果subToken。以loptiLen设置的窗口,对粗粒度分词结果中的当前粗粒度分词进行遍历,以获得当前粗粒度分词的分词结果lsubToken。如果lsubToken不为空,且存在细粒度分词结果中,则保留lsubToken,否则保留subToken。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一些可选实施例中,所述方法还包括:响应于确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词,将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果。籍此,在确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词的情况下,将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果中,能够有效提高文本的分词的准确率。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在步骤S104中,根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果。
在一些可选实施例中,在确定所述文本的最终分词结果时,对所述细粒度分词结果和修正后的所述粗粒度分词结果进行去重,以获得所述文本的最终分词结果。籍此,能够有效避免所述文本的最终分词结果的冗余,使得所述文本的最终分词结果更加简练。可以理解的是,以上描述仅为示例性的,本实施例对此不做任何限定。
在一个具体的例子中,如图1B所示,本实施例提供的文本的分词过程如下:通过原始的IK分词器,以粗粒度和细粒度两种分词方式,分别对文本进行分词,获得文本的粗粒度分词结果ik_smart和细粒度分词结果ik_max_word。判断ik_smart和ik_max_word的分词数量是否均为1,如果均为1,则不进行处理,保留原结果,如果不都为1,则进行下一步。循环遍历ik_smart,如果当前粗粒度分词为地址词汇或者非中文词汇,则保留该当前粗粒度分词,转而对ik_smart中的下一个粗粒度分词进行词类型的判断,如果不满足条件,则进行下一步。计算当前粗粒度分词的长度,根据词汇长度进行不同的规则处理。如果当前粗粒度分词的长度为1,并且当前粗粒度分词为ik_smart中的最后一个粗粒度分词,则将当前粗粒度分词和当前粗粒度分词的相邻的前一个粗粒度分词粘合。如果当前粗粒度分词的相邻的后一个粗粒度分词的长度大于1,则保留当前粗粒度分词,继续对ik_smart中的下一个粗粒度分词进行处理。如果当前粗粒度分词的字符长度为1,并且在当前粗粒度分词之后的相邻的粗粒度分词的字符长度为1,粘合连接当前粗粒度分词和在当前粗粒度分词之后的相邻的粗粒度分词。如果当前粗粒度分词的长度为1,并且在当前粗粒度分词之后的两个连续的粗粒度分词的字符长度均为1,粘合连接当前粗粒度分词和两个连续的粗粒度分词。如果当前粗粒度分词的长度为2或者3,直接保留当前粗粒度分词,然后继续对ik_smart中的下一个粗粒度分词进行处理。如果当前粗粒度分词的长度为4,设置第一最优词长optiLen和第二最优词长loptiLen。其中,optiLen可为2,loptiLen可为3。以optiLen设置的窗口,对ik_smart中的当前粗粒度分词进行遍历,以获得当前粗粒度分词的分词结果subToken。以loptiLen设置的窗口,对ik_smart中的当前粗粒度分词进行遍历,以获得当前粗粒度分词的分词结果lsubToken。如果lsubToken不为空,且存在ik_max_word中,则保留lsubToken,否则保留subToken。如果确定当前粗粒度分词为ik_smart中的最后一个粗粒度分词,将当前粗粒度分词的修正结果和当前粗粒度分词添加到修正后的ik_smart中。最后,对ik_max_word和修正后的ik_smart进行去重,获得文本的最终分词结果。
通过本发明实施例提供的文本的分词方法,根据待分词的文本的粗粒度分词结果中的粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,并根据修正后的所述粗粒度分词结果和所述文本的细粒度分词结果,确定所述文本的最终分词结果,能够有效确保文本的分词粒度适中,从而有效提高文本的分词的准确率。
本实施例提供的文本的分词方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:摄像头、终端、移动终端、PC机、服务器、车载设备、娱乐设备、广告设备、个人数码助理(PDA)、平板电脑、笔记本电脑、掌上游戏机、智能眼镜、智能手表、可穿戴设备、虚拟显示设备或显示增强设备等。
参照图2,示出了本实施例二中文本的分词装置的结构示意图。
本实施例提供的文本的分词装置包括:获取模块201,用于获取待分词的文本的粗粒度分词结果和细粒度分词结果;遍历模块202,用于对所述粗粒度分词结果中的粗粒度分词进行遍历,以确定所述粗粒度分词的字符长度;修正模块203,用于根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果;确定模块204,用于根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果。
可选地,所述遍历模块202之前,所述装置还包括:第一统计模块,用于对所述粗粒度分词结果中的粗粒度分词的数量进行统计,以获得所述粗粒度分词结果中的粗粒度分词的数量;第二统计模块,用于对所述细粒度分词结果中的细粒度分词的数量进行统计,以获得所述细粒度分词结果中的细粒度分词的数量;第一执行模块,用于响应于确定所述粗粒度分词结果中的粗粒度分词的数量和/或所述细粒度分词结果中的细粒度分词的数量不为预设分词数量,执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤。
可选地,所述装置还包括:第二执行模块,用于响应于确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量,执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理,以获得所述文本的分词结果的步骤。
可选地,所述遍历模块202之前,所述装置还包括:第一添加模块,用于响应于确定所述粗粒度分词为预设的词类型,将所述粗粒度分词添加到修正后的所述粗粒度分词结果;第三执行模块,用于响应于确定所述粗粒度分词不为所述词类型,执行所述确定所述粗粒度分词的字符长度的步骤。
可选地,所述修正模块203,具体用于:响应于确定所述粗粒度分词的字符长度为第一预设字符长度,并且与所述粗粒度分词相邻的后一个粗粒度分词的字符长度大于所述第一预设字符长度,则将所述粗粒度分词添加到修正后的所述粗粒度分词结果;和/或,响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度、在所述粗粒度分词之后的至少一个连续的粗粒度分词的字符长度均为所述第一预设字符长度,以及所述至少一个连续的粗粒度分词的数量不超过预设数量,粘合连接所述粗粒度分词和所述至少一个连续的粗粒度分词,获得所述粗粒度分词的修正结果,并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果;和/或,响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度,并且所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词,粘合连接所述粗粒度分词和与所述粗粒度分词相邻的前一个粗粒度分词,获得所述粗粒度分词的修正结果,并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果。
可选地,所述修正模块203,具体用于:响应于确定所述粗粒度分词的字符长度为第二预设字符长度或者第三预设字符长度,将所述粗粒度分词添加到修正后的所述粗粒度分词结果。
可选地,所述修正模块203,具体用于:响应于确定所述粗粒度分词的字符长度大于或等于第四预设字符长度,以第五预设字符长度设置的窗口,对所述粗粒度分词进行遍历,以获得所述粗粒度分词的第一分词结果,并以第六预设字符长度设置的窗口,对所述粗粒度分词进行遍历,以获得所述粗粒度分词的第二分词结果,其中,所述第六预设字符长度大于所述第五预设字符长度;响应于确定所述第二分词结果中存在分词,并且所述分词存在于所述细粒度分词结果中,将所述分词添加到修正后的所述粗粒度分词结果;响应于确定所述第二分词结果中不存在分词,或者所述第二分词结果中存在的分词不存在于所述细粒度分词结果中,将所述粗粒度分词的第一分词结果添加到修正后的所述粗粒度分词结果。
可选地,所述装置还包括:第二添加模块,用于响应于确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词,将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果。
可选地,所述确定模块204,具体用于:对所述细粒度分词结果和修正后的所述粗粒度分词结果进行去重,以获得所述文本的最终分词结果。
本实施例提供的文本的分词装置用于实现前述多个方法实施例中相应的文本的分词方法,并具有相应的方法实施例的有益效果,在此不再赘述。
参照图3,示出了根据本发明实施例三的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:
处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它电子设备或服务器进行通信。
处理器302,用于执行程序310,具体可以执行上述文本的分词方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:获取待分词的文本的粗粒度分词结果和细粒度分词结果;对所述粗粒度分词结果中的粗粒度分词进行遍历,以确定所述粗粒度分词的字符长度;根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果;根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果。
在一种可选的实施方式中,程序310还用于使得处理器302在对所述粗粒度分词结果中的粗粒度分词进行遍历之前,对所述粗粒度分词结果中的粗粒度分词的数量进行统计,以获得所述粗粒度分词结果中的粗粒度分词的数量;对所述细粒度分词结果中的细粒度分词的数量进行统计,以获得所述细粒度分词结果中的细粒度分词的数量;响应于确定所述粗粒度分词结果中的粗粒度分词的数量和/或所述细粒度分词结果中的细粒度分词的数量不为预设分词数量,执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤。
在一种可选的实施方式中,程序310还用于使得处理器302响应于确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量,执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理,以获得所述文本的分词结果的步骤。
在一种可选的实施方式中,程序310还用于使得处理器302在确定所述粗粒度分词的字符长度之前,响应于确定所述粗粒度分词为预设的词类型,将所述粗粒度分词添加到修正后的所述粗粒度分词结果;响应于确定所述粗粒度分词不为所述词类型,执行所述确定所述粗粒度分词的字符长度的步骤。
在一种可选的实施方式中,程序310还用于使得处理器302在根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正时,响应于确定所述粗粒度分词的字符长度为第一预设字符长度,并且与所述粗粒度分词相邻的后一个粗粒度分词的字符长度大于所述第一预设字符长度,则将所述粗粒度分词添加到修正后的所述粗粒度分词结果;和/或,响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度、在所述粗粒度分词之后的至少一个连续的粗粒度分词的字符长度均为所述第一预设字符长度,以及所述至少一个连续的粗粒度分词的数量不超过预设数量,粘合连接所述粗粒度分词和所述至少一个连续的粗粒度分词,获得所述粗粒度分词的修正结果,并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果;和/或,响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度,并且所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词,粘合连接所述粗粒度分词和与所述粗粒度分词相邻的前一个粗粒度分词,获得所述粗粒度分词的修正结果,并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果。
在一种可选的实施方式中,程序310还用于使得处理器302在根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正时,响应于确定所述粗粒度分词的字符长度为第二预设字符长度或者第三预设字符长度,将所述粗粒度分词添加到修正后的所述粗粒度分词结果。
在一种可选的实施方式中,程序310还用于使得处理器302在根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正时,响应于确定所述粗粒度分词的字符长度大于或等于第四预设字符长度,以第五预设字符长度设置的窗口,对所述粗粒度分词进行遍历,以获得所述粗粒度分词的第一分词结果,并以第六预设字符长度设置的窗口,对所述粗粒度分词进行遍历,以获得所述粗粒度分词的第二分词结果,其中,所述第六预设字符长度大于所述第五预设字符长度;响应于确定所述第二分词结果中存在分词,并且所述分词存在于所述细粒度分词结果中,将所述分词添加到修正后的所述粗粒度分词结果;响应于确定所述第二分词结果中不存在分词,或者所述第二分词结果中存在的分词不存在于所述细粒度分词结果中,将所述粗粒度分词的第一分词结果添加到修正后的所述粗粒度分词结果。
在一种可选的实施方式中,程序310还用于使得处理器302响应于确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词,将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果。
在一种可选的实施方式中,程序310还用于使得处理器302在根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果时,对所述细粒度分词结果和修正后的所述粗粒度分词结果进行去重,以获得所述文本的最终分词结果。
程序310中各步骤的具体实现可以参见上述文本的分词方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,根据待分词的文本的粗粒度分词结果中的粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,并根据修正后的所述粗粒度分词结果和所述文本的细粒度分词结果,确定所述文本的最终分词结果,能够有效确保文本的分词粒度适中,从而有效提高文本的分词的准确率。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的文本的分词方法。此外,当通用计算机访问用于实现在此示出的文本的分词方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的文本的分词方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。

Claims (12)

1.一种文本的分词方法,其特征在于,所述方法包括:
获取待分词的文本的粗粒度分词结果和细粒度分词结果;
对所述粗粒度分词结果中的粗粒度分词进行遍历,以确定所述粗粒度分词的字符长度;
根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果;
根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果。
2.根据权利要求1所述的文本的分词方法,其特征在于,所述对所述粗粒度分词结果中的粗粒度分词进行遍历之前,所述方法还包括:
对所述粗粒度分词结果中的粗粒度分词的数量进行统计,以获得所述粗粒度分词结果中的粗粒度分词的数量;
对所述细粒度分词结果中的细粒度分词的数量进行统计,以获得所述细粒度分词结果中的细粒度分词的数量;
响应于确定所述粗粒度分词结果中的粗粒度分词的数量和/或所述细粒度分词结果中的细粒度分词的数量不为预设分词数量,执行所述对所述粗粒度分词结果中的粗粒度分词进行遍历的步骤。
3.根据权利要求2所述的文本的分词方法,其特征在于,所述方法还包括:
响应于确定所述粗粒度分词结果中的粗粒度分词的数量和所述细粒度分词结果中的细粒度分词的数量均为所述预设分词数量,执行对所述粗粒度分词结果和所述细粒度分词结果进行合并处理,以获得所述文本的分词结果的步骤。
4.根据权利要求1所述的文本的分词方法,其特征在于,所述确定所述粗粒度分词的字符长度之前,所述方法还包括:
响应于确定所述粗粒度分词为预设的词类型,将所述粗粒度分词添加到修正后的所述粗粒度分词结果;
响应于确定所述粗粒度分词不为所述词类型,执行所述确定所述粗粒度分词的字符长度的步骤。
5.根据权利要求1所述的文本的分词方法,其特征在于,所述根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果,包括:
响应于确定所述粗粒度分词的字符长度为第一预设字符长度,并且与所述粗粒度分词相邻的后一个粗粒度分词的字符长度大于所述第一预设字符长度,则将所述粗粒度分词添加到修正后的所述粗粒度分词结果;
和/或,
响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度、在所述粗粒度分词之后的至少一个连续的粗粒度分词的字符长度均为所述第一预设字符长度,以及所述至少一个连续的粗粒度分词的数量不超过预设数量,粘合连接所述粗粒度分词和所述至少一个连续的粗粒度分词,获得所述粗粒度分词的修正结果,并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果;
和/或,
响应于确定所述粗粒度分词的字符长度为所述第一预设字符长度,并且所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词,粘合连接所述粗粒度分词和与所述粗粒度分词相邻的前一个粗粒度分词,获得所述粗粒度分词的修正结果,并将所述粗粒度分词的修正结果添加到修正后的所述粗粒度分词结果。
6.根据权利要求1所述的文本的分词方法,其特征在于,所述根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果,包括:
响应于确定所述粗粒度分词的字符长度为第二预设字符长度或者第三预设字符长度,将所述粗粒度分词添加到修正后的所述粗粒度分词结果。
7.根据权利要求1所述的文本的分词方法,其特征在于,所述根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果,包括:
响应于确定所述粗粒度分词的字符长度大于或等于第四预设字符长度,以第五预设字符长度设置的窗口,对所述粗粒度分词进行遍历,以获得所述粗粒度分词的第一分词结果,并以第六预设字符长度设置的窗口,对所述粗粒度分词进行遍历,以获得所述粗粒度分词的第二分词结果,其中,所述第六预设字符长度大于所述第五预设字符长度;
响应于确定所述第二分词结果中存在分词,并且所述分词存在于所述细粒度分词结果中,将所述分词添加到修正后的所述粗粒度分词结果;
响应于确定所述第二分词结果中不存在分词,或者所述第二分词结果中存在的分词不存在于所述细粒度分词结果中,将所述粗粒度分词的第一分词结果添加到修正后的所述粗粒度分词结果。
8.根据权利要求7所述的文本的分词方法,其特征在于,所述方法还包括:
响应于确定所述粗粒度分词为所述粗粒度分词结果中的最后一个粗粒度分词,将所述粗粒度分词的修正结果和所述粗粒度分词添加到修正后的所述粗粒度分词结果。
9.根据权利要求1所述的文本的分词方法,其特征在于,所述根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果,包括:
对所述细粒度分词结果和修正后的所述粗粒度分词结果进行去重,以获得所述文本的最终分词结果。
10.一种文本的分词装置,其特征在于,所述装置包括:
获取模块,用于获取待分词的文本的粗粒度分词结果和细粒度分词结果;
遍历模块,用于对所述粗粒度分词结果中的粗粒度分词进行遍历,以确定所述粗粒度分词的字符长度;
修正模块,用于根据所述粗粒度分词的字符长度,对所述粗粒度分词结果进行修正,以获得修正后的所述粗粒度分词结果;
确定模块,用于根据所述细粒度分词结果和修正后的所述粗粒度分词结果,确定所述文本的最终分词结果。
11.一种电子设备,其特征在于,所述设备包括:
处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-9中任意一项权利要求所述的文本的分词方法对应的操作。
12.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-9中任意一项权利要求所述的文本的分词方法。
CN202111593262.XA 2021-12-23 2021-12-23 文本的分词方法及装置 Active CN114386407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111593262.XA CN114386407B (zh) 2021-12-23 2021-12-23 文本的分词方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111593262.XA CN114386407B (zh) 2021-12-23 2021-12-23 文本的分词方法及装置

Publications (2)

Publication Number Publication Date
CN114386407A true CN114386407A (zh) 2022-04-22
CN114386407B CN114386407B (zh) 2023-04-11

Family

ID=81197943

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111593262.XA Active CN114386407B (zh) 2021-12-23 2021-12-23 文本的分词方法及装置

Country Status (1)

Country Link
CN (1) CN114386407B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117520549A (zh) * 2023-11-20 2024-02-06 北京中关村科金技术有限公司 一种文档切分方法、装置、设备及可读存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029084A (en) * 1988-03-11 1991-07-02 International Business Machines Corporation Japanese language sentence dividing method and apparatus
US5848184A (en) * 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
US20120130705A1 (en) * 2010-11-22 2012-05-24 Alibaba Group Holding Limited Text segmentation with multiple granularity levels
CN108920576A (zh) * 2018-06-25 2018-11-30 中科点击(北京)科技有限公司 一种自适应文本检索方法
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN110543637A (zh) * 2019-09-06 2019-12-06 知者信息技术服务成都有限公司 一种中文分词方法及装置
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN111681769A (zh) * 2020-08-17 2020-09-18 耀方信息技术(上海)有限公司 药品分词搜索方法及系统
CN111897953A (zh) * 2020-07-08 2020-11-06 西北工业大学 一种新型网络媒体平台评论文本分类标注数据纠正方法
CN112199952A (zh) * 2020-12-04 2021-01-08 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统
CN112784574A (zh) * 2021-02-02 2021-05-11 网易(杭州)网络有限公司 一种文本分割方法、装置、电子设备及介质
CN113010695A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种适用于继电保护装置缺陷分析的专业词典构建方法
CN113505828A (zh) * 2021-07-08 2021-10-15 上海艾爵斯信息科技有限公司 多源信息融合的分词方法、装置和设备
CN113505592A (zh) * 2021-07-08 2021-10-15 上海艾爵斯信息科技有限公司 多粒度融合的分词方法、装置、设备和存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5029084A (en) * 1988-03-11 1991-07-02 International Business Machines Corporation Japanese language sentence dividing method and apparatus
US5848184A (en) * 1993-03-15 1998-12-08 Unisys Corporation Document page analyzer and method
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统
US20120130705A1 (en) * 2010-11-22 2012-05-24 Alibaba Group Holding Limited Text segmentation with multiple granularity levels
CN109241392A (zh) * 2017-07-04 2019-01-18 北京搜狗科技发展有限公司 目标词的识别方法、装置、系统及存储介质
CN108920576A (zh) * 2018-06-25 2018-11-30 中科点击(北京)科技有限公司 一种自适应文本检索方法
WO2020082562A1 (zh) * 2018-10-25 2020-04-30 平安科技(深圳)有限公司 字符识别方法、装置、设备及存储介质
CN110543637A (zh) * 2019-09-06 2019-12-06 知者信息技术服务成都有限公司 一种中文分词方法及装置
CN111897953A (zh) * 2020-07-08 2020-11-06 西北工业大学 一种新型网络媒体平台评论文本分类标注数据纠正方法
CN111681769A (zh) * 2020-08-17 2020-09-18 耀方信息技术(上海)有限公司 药品分词搜索方法及系统
CN112199952A (zh) * 2020-12-04 2021-01-08 支付宝(杭州)信息技术有限公司 一种分词方法、多模式分词模型和系统
CN112784574A (zh) * 2021-02-02 2021-05-11 网易(杭州)网络有限公司 一种文本分割方法、装置、电子设备及介质
CN113010695A (zh) * 2021-04-19 2021-06-22 华北电力大学 一种适用于继电保护装置缺陷分析的专业词典构建方法
CN113505828A (zh) * 2021-07-08 2021-10-15 上海艾爵斯信息科技有限公司 多源信息融合的分词方法、装置和设备
CN113505592A (zh) * 2021-07-08 2021-10-15 上海艾爵斯信息科技有限公司 多粒度融合的分词方法、装置、设备和存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
HILDE KUEHNE等: "A Hybrid RNN-HMM Approach for Weakly Supervised Temporal Action Segmentation", 《IEEE》 *
凤丽洲等: "基于N-gram的双向匹配中文分词方法", 《数理统计与管理》 *
李刚等: "基于语义关联的图博档数字资源可视化服务模型构建研究", 《情报科学》 *
王佳楠等: "中文分词研究综述", 《软件导刊》 *
王惠仙等: "基于改进的正向最大匹配中文分词算法研究", 《贵州大学学报(自然科学版)》 *
袁健等: "二次回溯中文分词方法", 《计算机应用研究》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117520549A (zh) * 2023-11-20 2024-02-06 北京中关村科金技术有限公司 一种文档切分方法、装置、设备及可读存储介质

Also Published As

Publication number Publication date
CN114386407B (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
WO2021189803A1 (zh) 文本纠错方法、装置、电子设备及存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN110704719B (zh) 企业搜索文本分词方法和装置
CN110705302A (zh) 命名实体的识别方法、电子设备及计算机存储介质
JP2022160662A (ja) 文字認識方法、装置、機器、記憶媒体、スマート辞書ペン及びコンピュータプログラム
CN111859093A (zh) 敏感词处理方法、装置及可读存储介质
CN112507167A (zh) 一种识别视频合集的方法、装置、电子设备及存储介质
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
CN114386407B (zh) 文本的分词方法及装置
CN110717323A (zh) 文档分章方法及装置、终端和计算机可读存储介质
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN112949290A (zh) 文本纠错方法、装置及通信设备
CN116756382A (zh) 检测敏感字符串的方法、装置、设置及存储介质
CN115952332A (zh) 一种基于共现词频的核心搜索词组确定方法
CN115600592A (zh) 文本内容的关键信息提取方法、装置、设备及介质
CN112579713B (zh) 地址识别方法、装置、计算设备及计算机存储介质
CN115481599A (zh) 文档的处理方法、装置、电子设备和存储介质
CN111382258A (zh) 电子阅读对象章节的确定方法及其装置
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN113743409A (zh) 一种文本识别方法和装置
CN117574906B (zh) 命名实体识别方法、装置及设备
CN112765962B (zh) 一种文本纠错方法、装置及介质
CN111967257B (zh) 一种分词方法、装置、电子设备和存储介质
CN114998896B (zh) 文本识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant