CN110704719A - 企业搜索文本分词方法和装置 - Google Patents

企业搜索文本分词方法和装置 Download PDF

Info

Publication number
CN110704719A
CN110704719A CN201910934630.9A CN201910934630A CN110704719A CN 110704719 A CN110704719 A CN 110704719A CN 201910934630 A CN201910934630 A CN 201910934630A CN 110704719 A CN110704719 A CN 110704719A
Authority
CN
China
Prior art keywords
word
address
participle
matching
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910934630.9A
Other languages
English (en)
Other versions
CN110704719B (zh
Inventor
周晗
范成
高山
柳超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dike Technology Co Ltd
Original Assignee
Beijing Dike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dike Technology Co Ltd filed Critical Beijing Dike Technology Co Ltd
Priority to CN201910934630.9A priority Critical patent/CN110704719B/zh
Publication of CN110704719A publication Critical patent/CN110704719A/zh
Application granted granted Critical
Publication of CN110704719B publication Critical patent/CN110704719B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供一种企业搜索文本分词方法和装置,其中,企业搜索文本分词方法包括:对企业搜索文本进行分词,获取所述企业搜索文本的第一分词结果;根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性;根据各分词的分词属性确定满足预设字号条件的指定待处理分词,根据所述指定待处理分词确定所述企业搜索文本的第二分词结果。本发明的实施例提供的方案,能够实现企业搜索文本对应的各分词的分词属性的确定,便于后续进行对应搜索域的搜索,可提高搜索结果的匹配度和搜索效率。

Description

企业搜索文本分词方法和装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种企业搜索文本分词方法和装置。
背景技术
用户在企业信息搜索装置进行企业信息搜索时,输入的搜索词和在通用的搜索引擎上所输入的搜索词不同,用户在企业信息搜索装置所采用的搜索词通常与企业搜索文本相关,例如“北京××科技有限公司”,“××科技”。
目前,在企业信息搜索装置收到用户的搜索词以后,通常是采用通用分词器对搜索词进行分词,例如,对“北京××科技有限公司”进行分词,得到“北京”、“××”、“科技”、“有限公司”等分词,然后在全部域里搜索所有的分词。这种方法能保证大量的召回,同时也会召回很多匹配程度较低的信息,导致信息匹配准确度较低。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种企业搜索文本分词方法和装置,能够基于通用分词器的分词结果进行二次分词,实现企业搜索文本分词的属性标记,便于提高搜索结果的匹配度。
一方面,本发明的实施例提供了一种企业搜索文本分词方法,包括:
对企业搜索文本进行分词,获取所述企业搜索文本的第一分词结果;
根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性;
根据各分词的分词属性确定满足预设字号条件的指定待处理分词,根据所述指定待处理分词确定所述企业搜索文本的第二分词结果。
又一方面,本发明的实施例还提供一种企业搜索文本分词装置,包括:
第一分词单元,用于对企业搜索文本进行分词,获取所述企业搜索文本的第一分词结果;
分词属性单元,用于根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性;
第二分词单元,用于根据各分词的分词属性确定满足预设字号条件的指定待处理分词,根据所述指定待处理分词确定所述企业搜索文本的第二分词结果。
本发明实施例提供的企业搜索文本分词方法和装置,基于企业搜索文本的第一分词结果进行分词的分词属性的确认,将第一分词结果中的各分词及其对应的分词属性确定为企业搜索文本的第二分词结果,这样,通过企业搜索文本对应的各分词的分词属性,可以便于后续进行对应搜索域的搜索,可提高搜索结果的匹配度和搜索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一实施例的企业搜索文本分词方法的示例性流程图;
图2示出了根据本发明一实施例的企业搜索文本分词装置的结构示意图;
图3示出了根据本发明又一实施例的企业信息搜索方法的示例性流程图;
图4示出了根据本发明一实施例的企业信息搜索装置的结构示意图;
图5示出了根据本发明一实施例的电子设备的结构示意图。
具体实施方式
以下将结合附图对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施例,都属于本发明所保护的范围。
本申请使用的“模块”、“装置”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但并不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。
本发明的发明人考虑,如果能预先得到分词准确的属性,并基于分词的属性在属性对应的领域内搜索,召回的质量和效果都会明显提升。以搜索词“北京××科技有限公司”为例,其分词结果是“北京”、“××”、“科技”、“有限公司”,其中,“北京”、“科技”和“有限公司”分别是地址、业务类型、公司后缀即组织形式,而“××”为企业的字号。通过在字号域搜索完整的搜索词“××”,只在地址域搜索“北京”、在经营范围域搜索“科技”,可以得到更准确的结果。而为了实现分词属性的确定,可以预先基于属性域的划分构建对应的词典,通过词典的匹配来准确标记分词的属性。
下面结合附图详细说明本发明的技术方案。
参考图1,其示出了本发明一实施例提供的企业搜索文本分词方法的示例性流程图。本发明的一个实施例提供的企业搜索文本分词方法,可以包括如下步骤:
S110:对企业搜索文本进行分词,获取所述企业搜索文本的第一分词结果。
其中,企业搜索文本主要由用户在搜索平台上输入,可以是企业名称的全称、简称、企业地址等用于指向企业的内容。例如,“北京××科技有限公司”、“××科技”、“北京××路××号”等。
本发明实施例中,可以采用本领域技术人员通用的分词器来对企业搜索文本进行分词,将得到的分词结果作为企业搜索文本的第一分词结果。
可以理解的是,本发明对通用的分词器所采用的企业搜索文本分词方法不做具体限定,例如,基于词典的企业搜索文本分词方法,基于统计的企业搜索文本分词方法、基于语义规则的企业搜索文本分词方法等,此处不进行详述。
S120:根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性。
实际应用中,企业名称的全称一般涉及地址、字号、业务类型、组织形式等部分;企业名称的简称,可能会空缺地址、业务类型及组织形式等部分;而企业地址通常仅涉及地址部分。可以理解的是,本发明实施例中的业务类型,可以是行业或经营特点。基于上述考虑,本发明实施例中,可以预先划分不同的分词属性。划分的分词属性包括如下至少一项:地址属性、字号属性、业务类型属性、组织形式属性。
进一步地,为了便于标记企业搜索文本的第一分词结果中分词的分词属性,可以预先构建分词属性词典。实际应用中,可以基于现有已经完成注册和正在注册的企业名称及其地址等信息,进行分词处理以及对分词的分词属性进行标记;这样,可以根据各分词及其对应的分词属性,构建不同的分词属性词典。本发明的一些实施例中,构建的分词属性词典包括如下至少一项:地址词典、业务类型词典和组织形式词典。其中,地址词典中包括不同的地址,业务类型词典中包括不同的业务类型,组织形式词典中包括不同的组织形式。
例如,对于“北京金堤科技有限公司”进行分词后,得到“北京”“金”“堤”“科技”“有限公司”多个分词,分别将该多个分词在不同的分词属性词典中匹配后,“北京”命中地址词典,确定为地址属性,“金”、“堤”未命中任何属性词典中的信息,可以确定为待定属性,“科技”命中业务类型词典,确定为业务属性,“有限公司”命中组织形式词典,确定为组织形式属性。
S130:根据各分词的分词属性确定满足预设单词条件的指定待处理分词,根据所述指定待处理分词确定所述企业搜索文本的第二分词结果。
根据上述S120可知,“金”、“堤”为两个单字,且未命中任何属性词典,可以将未命中任何属性词典的单字作为满足预设单词条件的指定待处理分词。指定待处理分词可以是企业搜索文本中符合字号属性的字号分词。
为提升指定待处理分词是否为字号分词的分析准确度,进一步判断所述指定待处理分词在所述企业搜索文本中的位置是否满足预设位置条件,若满足,将所述指定待处理分词确定为所述企业搜索文本的第二分词结果。
判断所述指定待处理分词在所述企业搜索文本中的位置是否满足预设位置条件,包括:判断所述指定待处理分词是否在所述地址属性对应的分词之后,且位于业务类型分词之前,若是,确定所述指定待处理分词在所述企业搜索文本中的位置满足预设位置条件。
根据字号分词的特性可知,字号一般设置在企业名称中地址属性对应的分词之后,业务类型分词之前,因此,可以通过该指定待处理分词在所述企业搜索文本(企业名称)中的位置来确定该指定待处理分词是否确定为字号属性。仍以“北京金堤科技有限公司”为例,由于指定待处理分词“金”、“堤”位于地址属性分词“北京”之后、业务属性分词“科技”之前,因此可以确定“金”、“堤”为字号属性的分词,并可以将“金”、“堤”合并后作为企业搜索文本的第二分词结果进行进一步搜索。
在本发明的一些实施例中,地址词典中还可以包括不同的地址的不同语种表示词;业务类型词典中还包括不同的业务类型的不同语种表示词;组织形式词典中还包括不同的组织形式的不同语种表示词。这样,可以适用于用户输入的企业搜索文本中包括其他语种的分词时,提高分词属性标记的适用范围。
本发明的一些实施例中,还可以构建字号词典,以便后续将企业搜索文本的第一分词结果中的分词直接与字号词典进行匹配,筛选出企业搜索文本的第一分词结果中的分词属性为字号的分词。此时,也可以将匹配到字号属性词典的字号属性作为满足预设单词条件的指定待处理分词。
考虑到字号的复杂性和多样性,本发明的一些实施例中,也可以无需构建字号词典,而基于其他的分词属性词典的匹配结果来进行字号属性的分词的筛选。例如,本发明的一些实施例中,可以针对第一分词结果中的每个分词,将该分词与预设的一个或多个分词属性词典进行词典匹配,若该分词与其中的一个分词属性词典匹配成功,则可以确定该分词属性词典对应的分词属性为分词的分词属性。若该分词与所有的分词属性词典均匹配失败,则可以确定该分词的分词属性为字号属性。
本发明的实施例提供的企业搜索文本分词方法,在采用通用的分词器对企业搜索文本进行分词之后,可以基于预先构建的词典对企业搜索文本的第一分词结果进行分词属性的确认,得到企业搜索文本的第二分词结果,这样,通过分词的分词属性,可以便于后续根据企业搜索文本的第二分词结果进行对应搜索域的搜索,提高搜索结果的匹配度和搜索效率。
考虑企业名称的命名存在一定规律,比如,字号通常在业务类型和组织形式之前,地址的行政级别通常是行政级别高的地址在行政级别低的地址之前。
本发明的一些实施例中,可以在根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性的过程中,根据所述企业搜索文本的预设顺序,依次遍历所述第一分词结果中的所有分词,根据预设的一个或多个分词属性词典,依照如下先后顺序进行一次或多次属性匹配:地址匹配、字号匹配、业务类型匹配、组织形式匹配,确定所述第一分词结果中各分词的分词属性。这样,对于企业搜索文本中的地址属性的分词,一开始就可以进行地址匹配,而避免进行字号匹配、业务类型匹配等操作,提高分词效率。
本发明的一些实施例中,地址匹配主要指的是分词与地址词典中的地址的匹配,业务类型匹配主要指的是分词与业务类型词典中的业务类型的匹配,组织形式匹配主要指的是分词与组织形式词典中的组织形式的匹配。
实际应用中,在构建字号词典时,字号匹配可以指的是分词与字号词典中的字号的匹配。而在未构建字号词典时,可以先进行地址匹配,在完成地址匹配之后,进行业务类型匹配,若业务类型匹配失败,则表明分词为字号的可能性较大,可以确定该分词的分词属性为字号属性,间接实现了字号匹配。
进一步地,为了提高分词属性标记的准确性,在本发明的一些实施例中,依次遍历所述第一分词结果中的所有分词,根据预设的一个或多个分词属性词典,依照如下先后顺序进行一次或多次属性匹配:地址匹配、字号匹配、业务类型匹配、组织形式匹配,确定所述第一分词结果中各分词的分词属性的过程中,可以在第一分词结果未完成地址匹配时,将当前遍历的分词与所述地址词典中的地址进行匹配,若匹配成功,则将当前遍历的分词存储至预先构建的地址属性集,并进行下一个分词的遍历,遍历的下一个分词继续进行地址匹配;若匹配失败,则确定地址匹配完成,将当前遍历的分词存储至预先构建的字号属性集,并进行下一个分词的遍历,遍历的下一个分词从字号匹配开始。
其中,所述地址属性集中分词的分词属性为地址属性;
所述字号属性集中分词的分词属性为字号属性。
实际应用中,可以预先针对不同的分词属性构建对应的空的属性集;这样,后续可以将具有相同分词属性的分词存储到同一属性集中。
具体地,本发明实施例中,可以根据所述企业搜索文本的预设顺序,如从左往右的顺序依次遍历所述第一分词结果中的所有分词,针对遍历的第一个分词,可以进行地址匹配,将第一个分词与地址词典中的地址进行匹配,若匹配成功,则表明第一个分词的分词属性为地址属性,第一个分词可以存储至预先构建的地址属性集,并进行下一个分词的遍历,遍历的下一个分词仍然进行地址匹配,直至遍历的分词与地址词典中的地址匹配失败,确定地址匹配完成。
实际应用中,若当前遍历的分词与地址词典中的地址匹配成功,而后续没有可遍历的分词时,也可确定地址匹配完成。例如,用户输入的企业搜索文本可能是企业的详细地址,例如“北京××区××路××号”,通过本发明实施例提供的分词方案,通过地址匹配即可完成,避免进行业务类型匹配、组织形式匹配等无效的匹配。
实际应用中,用户输入的企业搜索文本为企业的简称时,可能仅包括城市地址和字号,比如“北京××”,通过本发明实施例提供的分词方案,企业搜索文本的第一分词结果通常为“北京”、“××”,基于第一分词结果,可以将分词“北京”与地址词典中的地址进行匹配,确定分词“北京”的分词属性为地址后,遍历到下一个分词“××”,分词“××”与地址词典中的地址可能无法匹配,此时,可以确定地址匹配完成,由于字号通常是紧接在地址之后的,因此,本发明实施例中,可以将分词“××”存储至空的字号属性集中,由此实现了企业搜索文本的各分词的分词属性的确定。
进一步地,考虑到企业名称中字号的复杂性,可能会出现以某一县级以下的城市地址为字号的情形,以及企业名称中含行政区划名称、行政级别高的地址在前且相邻地址间存在行政关联的规则。
因此,本发明的一些实施例中,在当前遍历的分词与地址词典中的地址进行匹配后,若匹配成功,可以判断当前的地址属性集是否为空,若为空,则可以将当前遍历的分词存储至所述地址属性集。
若不为空,则可以将当前遍历的分词的行政级别与所述地址属性集中的地址的行政级别进行比较。
若当前遍历的分词的行政级别高于地址属性集中的地址的行政级别,则可以确定地址匹配完成,将当前遍历的分词存储至所述字号属性集,并进行下一个分词的遍历,遍历的下一个分词从字号匹配开始。若当前遍历的分词的行政级别低于所述地址属性集中的地址的行政级别,则可以进一步判断当前遍历的分词与地址属性集中的地址是否存在行政关联。
若存在行政关联,则表明当前遍历的分词的分词属性为地址属性,将当前遍历的分词存储至所述地址属性集。
若当前遍历的分词与地址属性集中的地址不存在行政关联,则表明当前遍历的分词不是地址,确定地址匹配完成,将当前遍历的分词存储至所述字号属性集,并进行下一个分词的遍历,遍历的下一个分词从字号匹配开始。本发明实施例中,基于地址间的行政级别高低及地址间的行政关联关系来确定分词的分词属性,可提高分词属性标记的准确性,以便提高后续搜索结果的匹配度。
进一步地,考虑到,字号在企业名称中通常位于地址与业务类型之间的位置,业务类型的名称通常是两个字及以上,字号也是两个字及以上。
因此,本发明的一些实施例中,在之前遍历的分词与地址词典中的地址匹配失败,确定地址匹配完成,并将之前遍历的分词存储至预先构建的字号属性集时,即在第一分词结果完成地址匹配但未完成字号匹配时,字号属性集不为空,判断当前遍历的分词的长度是否等于1。
若是,则将当前遍历的分词存储至所述字号属性集,并进行下一个分词的遍历,遍历的下一个分词继续进行字号匹配;若否,则将当前遍历的分词与业务类型词典中的业务类型进行匹配。
若当前遍历的分词与业务类型词典中的业务类型匹配失败,则将当前遍历的分词存储至所述字号属性集,并进行下一个分词的遍历,遍历的下一个分词继续进行字号匹配;若当前遍历的分词与业务类型词典中的业务类型匹配成功,则确定字号匹配完成,将当前遍历的分词存储至预先构建的业务类型属性集中,并进行下一个分词的遍历,遍历的下一个分词从业务类型匹配开始。
其中,业务类型可以是行业或经营特点,例如,物流、智能等。业务类型属性集中分词的分词属性为业务类型属性。
本发明实施例中,在第一分词结果完成地址匹配但未完成字号匹配、字号属性集不为空时,基于分词的长度和业务类型匹配来确定分词的分词属性,间接完成字号匹配,实现企业搜索文本中的字号属性的分词的准确识别,以便提高后续搜索结果的匹配度。
进一步地,根据预设的一个或多个分词属性词典,依照如下先后顺序进行一次或多次属性匹配:地址匹配、字号匹配、业务类型匹配、组织形式匹配,确定所述第一分词结果中各分词的分词属性过程中,通过上述实施例,对企业搜索文本的第一分词结果中的分词完成地址匹配和字号匹配之后,可以进行业务类型匹配和组织形式匹配。
具体地,在所述第一分词结果完成字号匹配但未完成业务类型匹配时,将当前遍历的分词与业务类型词典中的业务类型进行匹配。
若当前遍历的分词与业务类型词典中的业务类型匹配成功,则将当前遍历的分词存储至所述业务类型属性集中,并进行下一个分词的遍历,遍历的下一个分词继续进行业务类型匹配。
若当前遍历的分词与业务类型词典中的业务类型匹配失败,则确定业务类型匹配完成,将当前遍历的分词与所述组织形式词典中的组织形式进行匹配,若匹配成功,则将当前遍历的分词存储至预先构建的组织形式属性集中。
其中,所述组织形式属性集中分词的分词属性为组织形式属性。
通过本发明实施例提供的分词方案,能够在对企业搜索文本的第一分词结果中的分词完成地址匹配和字号匹配之后,进行业务类型匹配和组织形式匹配,实现企业搜索文本中的业务类型属性和组织形式属性的分词的准确识别,以便提高后续搜索结果的匹配度。
进一步地,考虑用户在输入企业搜索文本时可能出现业务类型表述不准确的情况,比如,将“智能”输入为“只能”。因此,本发明的一些实施例中,对于业务类型词典,其中除了可以包括不同的业务类型,还可以包括不同的业务类型的不同语种表示词。
进一步地,考虑企业搜索文本中涉及分公司的地址,因此,本发明的一些实施例中,在完成字号匹配后进行业务类型匹配的过程中,也可以考虑进行地址匹配。
具体地,可以在当前遍历的分词与所述业务类型词典中的业务类型匹配失败之后,将当前遍历的分词与所述地址词典中的地址进行匹配。
若当前遍历的分词与地址词典中的地址匹配成功,则确定业务类型匹配完成,并将当前遍历的分词存储至所述地址属性集,并进行下一个分词的遍历,遍历的下一个分词进行组织形式匹配。
若当前遍历的分词与所述地址词典中的地址匹配失败,则用其他语种表示当前遍历的分词,并将其他语种表示的当前遍历的分词与业务类型词典中的业务类型的不同语种表示词进行匹配。
若其他语种表示的当前遍历的分词与业务类型词典中的业务类型的不同语种表示词匹配成功,则将当前遍历的分词存储至业务类型属性集,并进行下一个分词的遍历,遍历的下一个分词继续进行业务类型匹配。
若其他语种表示的当前遍历的分词与业务类型词典中的业务类型的不同语种表示词匹配失败,则确定业务类型匹配完成,并将当前遍历的分词与组织形式词典中的组织形式进行匹配。
若当前遍历的分词与组织形式词典中的组织形式匹配成功,则将当前遍历的分词存储至所述组织形式属性集中,并进行下一个分词的遍历,遍历的下一个分词继续进行组织形式匹配。若匹配失败,则确定组织形式匹配完成,将当前遍历的分词存储至预先构建的其他属性集中;其中,所述其他属性集中的分词无分词属性。
本发明实施例中,在第一分词结果完成字号匹配之后,在进行业务类型匹配和组织形式匹配过程中,不仅考虑了分公司地址的识别,还考虑用户输入的拼写错误,进一步提高第一分词结果中各分词的分词属性的识别准确度,从而提高后续搜索结果的匹配度。
进一步地,考虑企业搜索文本中在对分公司进行表述时可能包括多级,比如,“××股份有限公司重庆分公司垫江支公司”中,涉及“重庆”、“垫江”两级。因此,在本发明的一些实施例中,为了支持更为精确的搜索,在对第一分词结果进行分词属性的确定的过程中,若所述组织形式属性集不为空,则判断所述第一分词结果中是否还存在未遍历的分词。
若是,在进行下一个分词的遍历,将遍历的分词与所述地址词典中的地址进行匹配。若匹配成功,则将遍历的分词存储至所述地址属性集,并进行下一个分词的遍历,遍历的下一个分词进行组织形式匹配;若匹配失败,则将遍历的分词与所述组织形式词典中的组织形式进行匹配。
若遍历的分词与组织形式词典中的组织形式匹配成功,则将遍历的分词存储至组织形式属性集中;若匹配失败,则将遍历的分词存储至预先构建的其他属性集中。
在进行业务类型匹配和组织形式匹配过程中,不仅考虑了分公司地址的识别,还考虑用户输入的拼写错误,进一步提高第一分词结果中各分词的分词属性的识别准确度,从而提高后续搜索结果的匹配度。
本发明实施例中,在组织形式属性集不为空,即识别出企业搜索文本中分词属性为组织形式的分词之后,还可以通过进一步的地址匹配、组织形式匹配完成分公司相关分词的分词属性的准确识别,可提高后续搜索结果的匹配度。
在上述各实施例的基础上,本发明的一个实施例提供了一种企业搜索文本分词装置。
参考图2,其示出了根据本发明一实施例的企业搜索文本分词装置的结构示意图。
如图2所示,本发明的一个实施例提供的企业搜索文本分词装置可以包括:第一分词单元201和第二分词单元202。
其中,第一分词单元201,用于对企业搜索文本进行分词,获取所述企业搜索文本的第一分词结果。
分词属性确定单元202,用于根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性;
第二分词单元202,用于根据各分词的分词属性确定满足预设字号条件的指定待处理分词,根据所述指定待处理分词确定所述企业搜索文本的第二分词结果。
上述中各商标数据生成装置模块的具体细节已经在对应的商标数据生成方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了商标数据生成装置200的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
进一步地,基于上述实施例提供的企业搜索文本分词方法,本发明还提供了一种企业信息搜索方法。
参考图3,其示出了本发明一实施例提供的企业信息搜索方法的示例性流程图。
如图3所示,本发明的一个实施例提供的企业信息搜索方法,可以包括如下步骤:
S310:对企业搜索文本进行分词,获取所述企业搜索文本的第一分词结果;
S320:根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性,将所述第一分词结果中的各分词及其对应的分词属性确定为所述企业搜索文本的第二分词结果。
可以理解的是,本发明实施例提供的企业信息搜索方法中的步骤S310和S320可以分别参考上述实施例提供的企业搜索文本分词方法中的步骤S110和S120,此处不再赘述。
S330:根据所述企业搜索文本的第二分词结果,在与各分词属性对应的搜索域中进行企业信息搜索。
本发明实施例中,企业信息搜索装置中包括与各分词属性分别对应的搜索域,通过对应的搜索域来进行分词对应的信息搜索,可大大减少搜索范围,提高搜索准确度和搜索效率。
本发明的实施例提供的企业信息搜索方法,在采用通用的分词器对企业搜索文本进行分词之后,可以基于预先构建的词典对企业搜索文本的第一分词结果进行分词属性的确认,得到企业搜索文本的第二分词结果,这样,通过分词的分词属性,可以便于后续根据企业搜索文本的第二分词结果进行对应搜索域的搜索,提高搜索结果的匹配度和搜索效率。
进一步地,基于上述企业信息搜索方法的实施例,本发明的一个实施例提供了一种企业信息搜索装置。
参考图4,其示出了本发明一实施例提供的企业信息搜索装置的结构示意图。
如图4所示,本发明的一个实施例提供的企业信息搜索装置,可以包括:分词模块401和搜索模块402。
其中,分词模块401用于对企业搜索文本进行分词,获取所述企业搜索文本的第一分词结果;根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性,将所述第一分词结果中的各分词及其对应的分词属性确定为所述企业搜索文本的第二分词结果。
其中,分词模块401可以是上述实施例提供的企业搜索文本分词装置。
搜索模块402用于根据所述企业搜索文本的第二分词结果,在与各分词属性对应的搜索域中进行企业信息搜索。
可以理解的是,本发明实施例提供的企业信息搜索装置中各模块具体可以用于执行上述企业信息搜索方法的实施例的处理流程,各模块的具体功能在此不再赘述,可以参照上述企业信息搜索方法和业搜索文本分词方法的实施例的详细描述。
本发明的实施例提供的企业信息搜索装置,基于企业搜索文本的第一分词结果进行分词的分词属性的确认,将第一分词结果中的各分词及其对应的分词属性确定为企业搜索文本的第二分词结果,这样,通过企业搜索文本对应的各分词的分词属性,可以便于后续进行对应搜索域的搜索,可提高搜索结果的匹配度和搜索效率。
参考图5,其示出了根据本发明一实施例的电子设备的实体结构示意图。如图5所示,该电子设备500可以包括:处理器(processor)501、存储器(memory)502和总线503,其中,处理器501,存储器502通过总线503完成相互间的通信。
处理器501可以调用存储器502中的计算机程序,以执行上述企业搜索文本分词方法或企业信息搜索方法的各步骤。
本发明实施例提供的电子设备500,至少具有以下技术效果:基于企业搜索文本的第一分词结果进行分词的分词属性的确认,将第一分词结果中的各分词及其对应的分词属性确定为企业搜索文本的第二分词结果,这样,通过企业搜索文本对应的各分词的分词属性,可以便于后续进行对应搜索域的搜索,可提高搜索结果的匹配度和搜索效率。
本发明的一个实施例提供了一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述企业搜索文本分词方法或企业信息搜索方法的各步骤。
本发明的一个实施例提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述企业搜索文本分词方法或企业信息搜索方法的各步骤。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动时,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种企业搜索文本分词方法,其特征在于,包括:
对企业搜索文本进行分词,获取所述企业搜索文本的第一分词结果;
根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性;
根据各分词的分词属性确定满足预设字号条件的指定待处理分词,根据所述指定待处理分词确定所述企业搜索文本的第二分词结果。
2.根据权利要求1所述的企业搜索文本分词方法,其特征在于,根据各分词的分词属性确定满足预设字号条件的指定待处理分词,包括:
判断所述指定待处理分词在所述企业搜索文本中的位置是否满足预设位置条件,若满足,将所述指定待处理分词确定为所述企业搜索文本的第二分词结果。
3.根据权利要求1所述的企业搜索文本分词方法,其特征在于,
当第一分词结果中分词在各分词属性词典未命中匹配信息,确定当前分词为满足预设字号条件的指定待处理分词。
4.根据权利要求2所述的企业搜索文本分词方法,其特征在于,所述分词属性包括如下至少一项:地址属性、字号属性、业务类型属性、组织形式属性,判断所述指定待处理分词在所述企业搜索文本中的位置是否满足预设位置条件,包括:
判断所述指定待处理分词是否在所述地址属性对应的分词之后,且位于业务类型分词之前,若是,确定所述指定待处理分词在所述企业搜索文本中的位置满足预设位置条件。
5.根据权利要求4所述的企业搜索文本分词方法,其特征在于,
确定所述第一分词结果中各分词的分词属性,包括:
在所述第一分词结果未完成地址匹配时,将当前遍历的分词与所述地址词典中的地址进行匹配,若匹配成功,将当前遍历的分词存储至预先构建的地址属性集,并进行下一个分词的遍历,遍历的下一个分词继续进行地址匹配;若匹配失败,则确定地址匹配完成,将当前遍历的分词存储至预先构建的字号属性集,并进行下一个分词的遍历,遍历下一个分词从字号匹配开始;
其中,所述地址属性集中分词的分词属性为地址属性;
所述字号属性集中分词的分词属性为字号属性。
6.根据权利要求5所述的企业搜索文本分词方法,其特征在于,将当前遍历的分词存储至预先构建的地址属性集,包括:
若所述地址属性集为空,或当前遍历的分词的行政级别低于所述地址属性集中的地址的行政级别且当前遍历的分词与所述地址属性集中的地址行政关联,则将当前遍历的分词存储至所述地址属性集;
所述方法还包括:
在当前遍历的分词与所述地址词典中的地址匹配成功时,若当前遍历的分词与所述地址属性集中的地址不存在行政关联,或当前遍历的分词的行政级别高于所述地址属性集中的地址的行政级别,则确定地址匹配完成,将当前遍历的分词存储至所述字号属性集,并进行下一个分词的遍历,遍历的下一个分词从字号匹配开始。
7.根据权利要求5或6所述的企业搜索文本分词方法,其特征在于,确定所述第一分词结果中各分词的分词属性,还包括:
在所述第一分词结果完成地址匹配但未完成字号匹配时,若所述字号属性集不为空,则判断当前遍历的分词的长度是否等于1,若是,则将当前遍历的分词存储至所述字号属性集,并进行下一个分词的遍历,遍历的下一个分词继续进行字号匹配;若否,则将当前遍历的分词与所述业务类型词典中的业务类型进行匹配;若匹配失败,则将当前遍历的分词存储至所述字号属性集,并进行下一个分词的遍历,遍历的下一个分词继续进行字号匹配;若匹配成功,则确定字号匹配完成,将当前遍历的分词存储至预先构建的业务类型属性集中,并进行下一个分词的遍历,遍历的下一个分词从业务类型匹配开始;
其中,所述业务类型属性集中分词的分词属性为业务类型属性。
8.一种企业搜索文本分词装置,其特征在于,包括:
第一分词单元,用于对企业搜索文本进行分词,获取所述企业搜索文本的第一分词结果;
待处理分词处理单元,用于根据预设的各分词属性词典,确定所述第一分词结果中各分词的分词属性,根据所述分词属性确定指定待处理分词;
第二分词单元,用于确定所述指定待处理分词是否满足预设单词条件,若满足,根据所述指定待处理分词确定所述企业搜索文本的第二分词结果。
9.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-7中任一所述的模拟表格的添加方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于所述计算机程序被处理器执行时实现如权利要求1-7中任一所述的模拟表格的添加方法。
CN201910934630.9A 2019-09-29 2019-09-29 企业搜索文本分词方法和装置 Active CN110704719B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910934630.9A CN110704719B (zh) 2019-09-29 2019-09-29 企业搜索文本分词方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910934630.9A CN110704719B (zh) 2019-09-29 2019-09-29 企业搜索文本分词方法和装置

Publications (2)

Publication Number Publication Date
CN110704719A true CN110704719A (zh) 2020-01-17
CN110704719B CN110704719B (zh) 2022-03-08

Family

ID=69197241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910934630.9A Active CN110704719B (zh) 2019-09-29 2019-09-29 企业搜索文本分词方法和装置

Country Status (1)

Country Link
CN (1) CN110704719B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质
CN111783460A (zh) * 2020-06-15 2020-10-16 苏宁金融科技(南京)有限公司 一种企业简称提取方法、装置、计算机设备及存储介质
CN111783467A (zh) * 2020-07-21 2020-10-16 致诚阿福技术发展(北京)有限公司 一种企业名称识别方法及装置
CN111967257A (zh) * 2020-07-08 2020-11-20 咪咕文化科技有限公司 一种分词方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220919A1 (en) * 2003-01-22 2004-11-04 Yuji Kobayashi Information searching apparatus and method, information searching program, and storage medium storing the information searching program
CN106951415A (zh) * 2017-04-01 2017-07-14 银联智策顾问(上海)有限公司 一种商户名称搜索方法和装置
CN107748745A (zh) * 2017-11-08 2018-03-02 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法
CN109522417A (zh) * 2018-10-26 2019-03-26 浪潮软件股份有限公司 一种公司名的商号抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040220919A1 (en) * 2003-01-22 2004-11-04 Yuji Kobayashi Information searching apparatus and method, information searching program, and storage medium storing the information searching program
CN106951415A (zh) * 2017-04-01 2017-07-14 银联智策顾问(上海)有限公司 一种商户名称搜索方法和装置
CN107748745A (zh) * 2017-11-08 2018-03-02 厦门美亚商鼎信息科技有限公司 一种企业名称关键字提取方法
CN109522417A (zh) * 2018-10-26 2019-03-26 浪潮软件股份有限公司 一种公司名的商号抽取方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488736A (zh) * 2020-03-31 2020-08-04 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质
CN111488736B (zh) * 2020-03-31 2023-05-26 上海七印信息科技有限公司 自学习分词方法、装置、计算机设备和存储介质
CN111783460A (zh) * 2020-06-15 2020-10-16 苏宁金融科技(南京)有限公司 一种企业简称提取方法、装置、计算机设备及存储介质
CN111967257A (zh) * 2020-07-08 2020-11-20 咪咕文化科技有限公司 一种分词方法、装置、电子设备和存储介质
CN111783467A (zh) * 2020-07-21 2020-10-16 致诚阿福技术发展(北京)有限公司 一种企业名称识别方法及装置

Also Published As

Publication number Publication date
CN110704719B (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN110704719B (zh) 企业搜索文本分词方法和装置
CN107247707B (zh) 基于补全策略的企业关联关系信息提取方法和装置
CN110765770A (zh) 一种合同自动生成方法及装置
RU2613846C2 (ru) Метод и система извлечения данных из изображений слабоструктурированных документов
CN113807098A (zh) 模型训练方法和装置、电子设备以及存储介质
CN108573707B (zh) 一种语音识别结果的处理方法、装置、设备及介质
CN110321560B (zh) 一种从文本信息中确定位置信息的方法、装置及电子设备
CN113033185B (zh) 标准文本纠错方法、装置、电子设备和存储介质
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
CN110705261B (zh) 中文文本分词方法及其系统
CN116340548A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN112182353B (zh) 用于信息搜索的方法、电子设备和存储介质
CN111046627A (zh) 一种中文文字显示方法及系统
CN114220113A (zh) 一种论文质量检测方法、装置和设备
CN114036266A (zh) 一种基于自然语言处理的智能策略组卷方法、装置及设备
CN114386407A (zh) 文本的分词方法及装置
CN114154480A (zh) 信息提取方法、装置、设备和存储介质
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
CN112183074A (zh) 一种数据增强方法、装置、设备及介质
CN111444315A (zh) 纠错词组候选项的筛选方法、装置、设备及存储介质
CN113505570B (zh) 参考文献参见落空的审校方法、装置、设备及存储介质
CN116361517B (zh) 一种企业字号查重方法、装置、设备和介质
CN112395865B (zh) 报关单校验方法及装置
CN115270800B (zh) 终端门店名称的提取方法、装置、设备和计算机存储介质
CN115934921B (zh) 一种任务式回答的确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant