CN111104418B - 文本描述的处理方法、装置和电子设备 - Google Patents
文本描述的处理方法、装置和电子设备 Download PDFInfo
- Publication number
- CN111104418B CN111104418B CN201911338977.3A CN201911338977A CN111104418B CN 111104418 B CN111104418 B CN 111104418B CN 201911338977 A CN201911338977 A CN 201911338977A CN 111104418 B CN111104418 B CN 111104418B
- Authority
- CN
- China
- Prior art keywords
- text description
- metadata
- segmentation
- segmentation word
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 26
- 230000011218 segmentation Effects 0.000 claims abstract description 269
- 238000012545 processing Methods 0.000 claims description 67
- 238000000034 method Methods 0.000 claims description 41
- 230000006870 function Effects 0.000 claims description 31
- 238000013507 mapping Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 239000000523 sample Substances 0.000 description 57
- 238000012937 correction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种文本描述的处理方法、装置和电子设备,在数据库中查找与文本描述匹配的目标数据时,是根据文本描述所属领域的元数据,确定文本描述对应的至少一个切分词中每一个切分词对应的元数据属性,这样基于文本描述所属领域的元数据确定的每一个切分词对应的元数据属性是适用于该领域内的所有场景,然后再根据每一个切分词对应的元数据的属性值,在数据库中确定与文本描述匹配的目标数据,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低,从而提高了获取到的文本描述对应的匹配结果的准确度。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及自然语言处理NLP技术领域。
背景技术
在一些引擎系统中,由于业务的需要,需要在较多的数据中找到用户需要的信息。在找用户需要的信息时,用户的需求可以通过文本描述体现,即需要在较多数据中查找到与文本描述对应的信息。
例如,当文本描述为“查找早出晚归的人员”时,要准确地找出相关的人员,那么必须先定义文本描述中的参数“早”和“晚”的时间点。通常情况下,根据经验可以确定早为6-8点,晚为20-22点,但是这样定义并不适合所有的地域,例如,该参数可以适用在上海,但是到新疆等地方,这样定义“早”和“晚”就不适用了;当然,这样定义也并不适合所有的时间,例如,该参数可以适用在冬季,但到了夏季,天亮的较早,天黑的较晚,这样定义“早”和“晚”就不适用了。可以看出,当该参数的取值定义的不准确时,基于该不准确的参数,得到的文本描述“查找早出晚归的人员”对应的匹配结果也会不准确。
因此,采用现有的参数定义方法,由于参数的取值是固定的,其并不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低。
发明内容
本申请实施例提供一种文本描述的处理方法、装置和电子设备,提高了获取到的文本描述对应的匹配结果的准确度。
第一方面,本申请实施例提供一种文本描述的处理方法,该文本描述的处理方法可以包括:
获取文本描述对应的至少一个切分词;所述切分词是对所述文本描述进行切分处理得到的。
根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性。
根据所述每一个切分词对应的元数据的属性值,在数据库中确定与所述文本描述匹配的目标数据。
由此可见,本申请实施例提供的文本描述的处理方法,在数据库中查找与文本描述匹配的目标数据时,与现有技术不同的是,是根据文本描述所属领域的元数据,确定文本描述对应的至少一个切分词中每一个切分词对应的元数据属性,这样基于文本描述所属领域的元数据确定的每一个切分词对应的元数据属性是适用于该领域内的所有场景,然后再根据每一个切分词对应的元数据的属性值,在数据库中确定与文本描述匹配的目标数据,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低,从而提高了获取到的文本描述对应的匹配结果的准确度。
在一种可能的实现方式中,所述根据所述每一个切分词对应的元数据的属性值,在数据库中确定与所述文本描述匹配的目标数据,包括:
根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的有向无环图;并根据所述文本描述对应的有向无环图,生成所述文本描述对应的可识别标记语言;再根据所述文本描述对应的可识别标记语言,在所述数据库中确定与所述文本描述匹配的目标数据,从而确定与所述文本描述匹配的目标数据,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低,从而提高了获取到的文本描述对应的匹配结果的准确度。
在一种可能的实现方式中,所述根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的有向无环图,包括:
根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的元数据映射函数;并根据所述文本描述对应的元数据映射函数,生成所述文本描述对应的有向无环图,这样可以得到文本描述对应的有向无环图。
在一种可能的实现方式中,若所述至少一个切分词中包括与所述文本描述不吻合的切分词,则所述根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性,包括:
对所述与所述文本描述不吻合的切分词进行修正,得到修改后的与所述文本描述吻合的切分词;并根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性;其中,所述每一个切分词均与所述文本描述吻合。
可以看出,通过对与所述文本描述不吻合的切分词进行修正,这样可以得到修正后的切分词,对应的,得到的文本描述也是符合描述规范的文本描述。
在一种可能的实现方式中,若所述至少一个切分词中包括模糊切分词,则所述根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性,包括:
基于统计分布对所述模糊切分词进行修正,得到修正后的非模糊切分词;并根据所述文本描述所属领域的元数据,确定所述每一个切分词对应的元数据的属性值;其中,所述每一个切分词均为非模糊切分词。
可以看出,当文本描述对应的至少一个切分词中包括模糊切分词,则无法基于该模糊切分词在数据库中找到与该文本描述对应的目标数据,因此,需要先基于统计分布对所述模糊切分词进行修正,得到修正后的非模糊切分词;并根据所述文本描述所属领域的元数据,确定所述每一个切分词对应的元数据的属性值,这样才能基于每一个切分词对应的元数据的属性值找到对应的目标数据。
在一种可能的实现方式中,所述根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的有向无环图,包括:
根据所述每一个切分词对应的元数据的属性值,确定所述统计分布对应的统计结果;并根据所述文本描述和所述统计分布对应的统计结果,生成所述文本描述对应的有向无环图,从而得到文本描述对应的有向无环图。
在一种可能的实现方式中,所述根据所述每一个切分词对应的元数据的属性值,确定所述统计分布对应的统计结果,包括:
根据所述每一个切分词对应的元数据的属性值,生成所述统计分布对应的有向无环图;并根据所述统计分布对应的有向无环图,生成所述统计分布对应的可识别标记语言,再根据所述统计分布对应的可识别标记语言,确定所述统计分布对应的统计结果,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低,从而提高了获取到的文本描述对应的匹配结果的准确度。
在一种可能的实现方式中,所述获取文本描述对应的至少一个切分词,包括:
确定所述文本描述;对所述文本描述进行切分处理,得到所述文本描述对应的至少一个切分词,从而得到文本描述对应的至少一个切分词。
在一种可能的实现方式中,所述方法还包括:
输出与所述文本描述匹配的目标数据,这样工作人员就可以及时查看与所述文本描述匹配的目标数据,为工作人员提供了便利。
第二方面,本申请实施例还提供一种文本描述的处理装置,该文本描述的处理装置可以包括:
获取模块,用于获取文本描述对应的至少一个切分词;所述切分词是对所述文本描述进行切分处理得到的。
处理模块,用于根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性,并根据所述每一个切分词对应的元数据的属性值,在数据库中确定与所述文本描述匹配的目标数据。
在一种可能的实现方式中,所述处理模块,具体用于根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的有向无环图;根据所述文本描述对应的有向无环图,生成所述文本描述对应的可识别标记语言;并根据所述文本描述对应的可识别标记语言,在所述数据库中确定与所述文本描述匹配的目标数据。
在一种可能的实现方式中,所述处理模块,具体用于根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的元数据映射函数;并根据所述文本描述对应的元数据映射函数,生成所述文本描述对应的有向无环图。
在一种可能的实现方式中,若所述至少一个切分词中包括与所述文本描述不吻合的切分词。
所述处理模块,具体用于对所述与所述文本描述不吻合的切分词进行修正,得到修改后的与所述文本描述吻合的切分词;并根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性;其中,所述每一个切分词均与所述文本描述吻合。
在一种可能的实现方式中,若所述至少一个切分词中包括模糊切分词。
所述处理模块,具体用于基于统计分布对所述模糊切分词进行修正,得到修正后的非模糊切分词;并根据所述文本描述所属领域的元数据,确定所述每一个切分词对应的元数据的属性值;其中,所述每一个切分词均为非模糊切分词。
在一种可能的实现方式中,所述处理模块,具体用于根据所述每一个切分词对应的元数据的属性值,确定所述统计分布对应的统计结果;并根据所述文本描述和所述统计分布对应的统计结果,生成所述文本描述对应的有向无环图。
在一种可能的实现方式中,所述处理模块,具体用于根据所述每一个切分词对应的元数据的属性值,生成所述统计分布对应的有向无环图;并根据所述统计分布对应的有向无环图,生成所述统计分布对应的可识别标记语言;再根据所述统计分布对应的可识别标记语言,确定所述统计分布对应的统计结果。
在一种可能的实现方式中,所述获取模块,具体用于确定所述文本描述;并对所述文本描述进行切分处理,得到所述文本描述对应的至少一个切分词。
在一种可能的实现方式中,所述装置还包括:输出模块,用于输出与所述文本描述匹配的目标数据。
第三方面,本申请实施例还提供一种电子设备,该电子设备可以包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面任一项所述的文本描述的处理方法。
第四方面,本申请实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述第一方面任一项所述的文本描述的处理方法。
上述申请中的一个实施例具有如下优点或有益效果:本申请实施例提供了一种文本描述的处理方法、装置和电子设备,在数据库中查找与文本描述匹配的目标数据时,是根据文本描述所属领域的元数据,确定文本描述对应的至少一个切分词中每一个切分词对应的元数据属性,这样基于文本描述所属领域的元数据确定的每一个切分词对应的元数据属性是适用于该领域内的所有场景,然后再根据每一个切分词对应的元数据的属性值,在数据库中确定与文本描述匹配的目标数据,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低,从而提高了获取到的文本描述对应的匹配结果的准确度。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是可以实现本申请实施例的文本描述的处理方法的一种场景图;
图2是根据本申请实施例提供的文本描述的处理方法的流程示意图;
图3是根据本申请第一实施例提供的文本描述的处理方法的流程示意图;
图4是根据本申请第一实施例提供的有向无环图的示意图;
图5是根据本申请第二实施例提供的文本描述的处理方法的流程示意图;
图6是根据本申请第二实施例提供的有向无环图的示意图;
图7是根据本申请第三实施例提供的文本描述的处理装置的结构示意图;
图8是根据本申请实施例的相似病例的查找方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本申请的实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。在本申请的文字描述中,字符“/”一般表示前后关联对象是一种“或”的关系。
图1是可以实现本申请实施例的文本描述的处理方法的一种场景图,示例的,请结合图1所示,该文本描述的处理方法可以应用于基于标签引擎查找数据的场景。当查找与某一文本描述匹配的数据时,例如该文本描述为“常住人口中被探头拍到最近7天去酒店的次数大于5天”,在查找与该文本描述为“常住人口中被探头拍到最近7天去酒店的次数大于5天”匹配的数据时,若采用现有的方法,由于文本描述中的参数的取值是固定的,其并不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低。
为了提高获取到的文本描述对应的匹配结果的准确度,可以尝试灵活设置文本描述中参数的取值,使其可以满足所有的场景,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低。为了使得文本描述中参数的取值可以满足所有的场景,本申请实施例提供了一种文本描述的处理方法,可参见图2所示。图2是根据本申请实施例提供的文本描述的处理方法的流程示意图,在数据库中查找与文本描述匹配的目标数据时,先执行S201获取文本描述对应的至少一个切分词,再执行S202根据文本描述所属领域的元数据,确定至少一个切分词中每一个切分词对应的元数据属性;然后再执行S203根据每一个切分词对应的元数据的属性值,在数据库中确定与文本描述匹配的目标数据。与现有技术不同的是,在本申请实施例中,是根据文本描述所属领域的元数据,确定文本描述对应的至少一个切分词中每一个切分词对应的元数据属性,这样基于文本描述所属领域的元数据确定的每一个切分词对应的元数据属性是适用于该领域内的所有场景,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低,从而提高了获取到的文本描述对应的匹配结果的准确度。
可以理解的是,在上述描述中,在获取文本描述对应的至少一个切分词时,需要先确定输入的文本描述,并对文本描述进行切分处理,得到文本描述对应的至少一个切分词。需要说明的是,对文本描述进行切分处理,得到其对应的至少一个切分词的方法可参见现有技术中对文本进行切分处理的方法,此处不再进行赘述。
基于上述描述可以看出,在本申请实施例中,之所以能够提高获取到的文本描述对应的匹配结果的准确度,是因为在数据库中查找与文本描述匹配的目标数据时,是根据文本描述所属领域的元数据,确定文本描述对应的至少一个切分词中每一个切分词对应的元数据属性。当然,在根据文本描述所属领域的元数据,确定文本描述对应的至少一个切分词中每一个切分词对应的元数据属性之前,必然需要先构建该文本描述所属领域的元数据。需要说明的是,对于特定领域,例如开放型领域的文本描述的元数据,通过分析,初步需要以下几类表:实体表、关系表、属性表、领域描述表、函数表、修正表,当然,也可以只包括这六种表中的任意一个或者多个;其中:
实体表,主要是描述各个标签的实体,主要有实体名、表名、过滤条件、表类型,优先级。关系表,主要是描述各个实体表之间的关系,类似于数据库中的外键,主要有表名、字段、关系表、外键。属性表,主要是描述的特定领域的属性,比如地点等。领域描述表,主要是对特定领域的描述进行元数据描述,包括特定领域名称、类型、方法、匹配方式等。函数表,主要是描述函数的元信息,包括函数名、输入格式、新增类型、新增字段、是否聚合等。修正表,是对一些描述进行一下修正,确保含义是用户表达的真实含义。举个例子:最近一周去酒店的次数,这里的次数其实应该是天数。最近7天出现的探头,这里的探头和出现在一起,隐含出拍摄的动作,即对应“拍到”。该表有以下几个字段,名称、组合、修正。
需要说明的是,在通过上述几种表描述文本描述时,可以分为下述至少两种可能的场景,在一种可能的场景中,文本描述对应的至少一个切分词中不包括模糊词,例如文本描述为“常住人口中被探头拍到最近7天去酒店的次数大于5天”;在一种可能的场景中,文本描述对应的至少一个切分词中包括模糊词,例如文本描述为“常住人口中最近7天经常被酒店探头拍到的人”,其中,模糊词为“经常”。在该两种不同的场景下,其对应的文本描述的处理方法也不同。下面,将分别通过实施例一和实施例二对这两种不同场景下的文本描述的处理方法进行详细地说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
实施例一
图3是根据本申请第一实施例提供的文本描述的处理方法的流程示意图,该文本描述的处理方法可以由软件和/或硬件装置执行,例如,该硬件装置可以为文本描述的处理装置,该文本描述的处理装置可以设置在电子设备中。示例的,请参见图3所示,该文本描述的处理方法可以包括:
S301、获取文本描述对应的至少一个切分词。
其中,切分词是对文本描述进行切分处理得到的。
示例的,以文本描述为“常住人口中被探头拍到最近7天去酒店的次数大于5天”为例,在获取该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的至少一个切分词时,可以对该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”进行切分处理,得到该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的至少一个切分词,该切分词包括“常驻人口”、“探头”、“拍到”、“最近7天”、“酒店”、以及“次数”,从而得到该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的6个切分词。
在获取文本描述对应的至少一个切分词之后,就可以根据文本描述所属领域的元数据,确定至少一个切分词中每一个切分词对应的元数据属性,即执行下述S302:
S302、根据文本描述所属领域的元数据,确定至少一个切分词中每一个切分词对应的元数据属性。
结合上述S301中的举例,继续以文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”为例,在得到该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的6个切分词之后,就可以根据文本描述所属领域的元数据,确定该6个切分词中每一个切分词对应的元数据属性。示例的,切分词“常驻人口”、切分词“探头”以及切分词“拍到”对应的元数据属性可以为实体表,该实体表可以参见下述表1所示;切分词“最近7天”对应的元数据属性可以为领域描述表,该领域描述表可以参见下述表2所示;切分词“酒店”对应的元数据属性可以为属性表,该属性表可以参见下述表3所示;切分词“次数”对应的元数据属性可以为修正表,该修正表可以参见下述表4所示;除此之外,还包括用于描述实体表中各实体之间的关联关系的关系表,该关系表可以参见下述表5所示;以及用于描述领域描述表的函数表,该函数表可以参见下述表6所示。
表1(实体表)
实体名 | 表名 | 条件 | 类型 |
常住人口 | person | Py==常驻 | s |
探头 | tantou | s | |
拍到 | Camera | d |
其中,切分词“常驻人口”、切分词“探头”以及切分词“拍到”均为实体表中的实体名。
表2(领域描述表)
其中,切分词“最近7天”为领域描述表中的名称。
表3(属性表)
实体名 | 表名 | 字段 | 操作 |
酒店 | tantou | Loc | Filter(loc==酒店) |
其中,切分词“酒店”为属性表中的实体名。
表4(修正表)
名称 | 组合 | 修正 |
次数 | 酒店 | 天数 |
一周 | 7天 |
其中,切分词“次数”为属性表中的名称。可以看出,之所以包括该修正表,是因为文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”中包括与文本描述不吻合的切分词“次数”,当包括与文本描述不吻合的切分词时,可以先对该与文本描述不吻合的切分词进行修正,即将与文本描述不吻合的切分词“次数”修正为修改后的与文本描述吻合的切分词“天数”,然后再根据文本描述所属领域的元数据,确定每一个均与文本描述吻合的切分词对应的元数据属性。
可以理解的是,若文本描述中不包括与文本描述不吻合的切分词,例如,文本描述为“常住人口中被探头拍到最近7天去酒店的天数大于5天”,则可以无需对文本描述对应的切分词进行修正处理,因此,也无需表4所示的修正表。
表5(关系表)
关系表 | 字段 | 关系表 | 字段 |
person | pid | camera | pid |
tantou | tid | camera | tid |
camera | pid | person | pid |
camera | tid | tantou | tid |
表6(函数表)
在根据文本描述所属领域的元数据,确定至少一个切分词中每一个切分词对应的元数据属性之后,就可以执行下述S303:
S303、根据每一个切分词对应的元数据的属性值,生成文本描述对应的元数据映射函数。
示例的,基于上述S302中关于文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”的相关描述,在得到每一个对应的元数据的属性值之后,就可以根据每一个切分词对应的元数据的属性值,生成文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的元数据映射函数。例如,该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的元数据映射函数为:Person join camera join tantou$now-$day<7loc==酒店count-by-key GT5。
S304、根据文本描述对应的元数据映射函数,生成文本描述对应的有向无环图。
其中,有向无环图指的是一个无回路的有向图。
结合上述S303中的描述,在得到文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的元数据映射函数:Person join camera join tantou$now-$day<7loc==酒店count-by-key GT5之后,就可以根据该元数据映射函数:Person joincamera join tantou$now-$day<7loc==酒店count-by-key GT5生成文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的有向无环图。示例的,该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的有向无环图可参见图4所示,图4是根据本申请第一实施例提供的有向无环图的示意图。
在根据文本描述对应的元数据映射函数,生成文本描述对应的有向无环图之后,就可以根据文本描述对应的有向无环图,生成文本描述对应的可识别标记语言,即执行下述S305:
S305、根据文本描述对应的有向无环图,生成文本描述对应的可识别标记语言。
示例的,可识别标记语言可以为可扩展标记语言(Extensible Markup Language,简称XML),当然,也可以为其它计算机可识别的标记语言,在此,本申请实施例只是以可识别标记语言可以为可扩展标记语言为例进行说明,但并不代表本申请实施例仅局限于此。
结合上述图4所示的文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的有向无环图,可以根据该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的有向无环图,生成文本描述对应的可识别标记语言。示例的,该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的可识别标记语言可以为:
Read name=1tn=person to–pid,xm
Read name=2tn=camera to–cid,time,tid,pid
Read name=3tn=tantou to–tid,loc,x,y
Join name=4from=1,2join-key=pid to=pid,xm,cid,time,tid
Join name=5from=4,5join-key=tid to=pid,xm,cid,time,tid,loc,x,y
Join name=6from=5condition=$now.day-time.day<7to=pid,xm,cid,time,tid,loc,x,y
Filter name=7from=6condition=loc==酒店to=pid,xm,cid,time,tid,loc,x,y
Count-by-key name=8from=7key=pid,day newcount=nc to=pid,xm,cid,time,tid,loc,x,y
Gt from=8name=9left=nc right=5to=pid,xm,cid,time,tid,loc,x,y,nc
Write from=9name=10tablename=outtable
在生成文本描述对应的可识别标记语言之后,就可以在数据库中计算得到与该文本描述匹配的目标数据,即执行下述S306:
S306、根据文本描述对应的可识别标记语言,在数据库中确定与文本描述匹配的目标数据。
示例的,若数据库中存储了1000个常住人口去酒店的相关信息,若该100个常住人口中,只有500个常住人口最近7天去酒店的天数大于5天,则根据该文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的可识别标记语言,可以在数据库中计算,确定与文本描述匹配的目标数据为该500个常住人口去酒店的相关信息。示例的,该相关信息可以包括常住人口的姓名、住址、去酒店的次数以及时间等相关信息。
由此可见,本申请实施例提供的文本描述的处理方法,在数据库中查找与文本描述匹配的目标数据时,与现有技术不同的是,是根据文本描述所属领域的元数据,确定文本描述对应的至少一个切分词中每一个切分词对应的元数据属性,这样基于文本描述所属领域的元数据确定的每一个切分词对应的元数据属性是适用于该领域内的所有场景,然后再根据每一个切分词对应的元数据的属性值,在数据库中确定与文本描述匹配的目标数据,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低,从而提高了获取到的文本描述对应的匹配结果的准确度。
上述实施例一详细地描述了当文本描述对应的至少一个切分词中不包括模糊切分词时,如何在数据库中确定与文本描述匹配的目标数据的技术方案。下面,将通过下述实施例二详细描述当文本描述对应的至少一个切分词中包括模糊切分词时,如何在数据库中确定与文本描述匹配的目标数据的技术方案。其中,模糊词可以表示程度不清楚的词,例如经常、常常、比较多等词汇。
实施例二
图5是根据本申请第二实施例提供的文本描述的处理方法的流程示意图,该文本描述的处理方法同样可以由软件和/或硬件装置执行,例如,该硬件装置可以为文本描述的处理装置,该文本描述的处理装置可以设置在电子设备中。示例的,请参见图5所示,该文本描述的处理方法还可以包括:
S501、获取文本描述对应的至少一个切分词。
其中,切分词是对文本描述进行切分处理得到的。
示例的,以文本描述为“常住人口中最近7天经常被酒店探头拍到的人”为例,在获取该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的至少一个切分词时,可以对该文本描述“常住人口中最近7天经常被酒店探头拍到的人”进行切分处理,得到该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的至少一个切分词,该切分词包括“常驻人口”、“探头”、“拍到”、“最近7天”、“酒店”、以及“经常”,从而得到该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的6个切分词。
可以看出,该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的6个切分词与上述实施例一中文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”对应的6个切分词不同,该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的6个切分词中包括模糊切分词“经常”。
由于该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的6个切分词中包括模糊切分词“经常”,因此,与上述实施例一不同的是,在本申请实施例中,不能直接根据文本描述所属领域的元数据,确定至少一个切分词中每一个切分词对应的元数据属性,而是需要先基于统计分布对模糊切分词进行修正,得到修正后的非模糊切分词,即执行下述S502:
S502、基于统计分布对模糊切分词进行修正,得到修正后的非模糊切分词。
结合上述S501中的举例,继续以文本描述“常住人口中最近7天经常被酒店探头拍到的人”为例,在得到该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的6个切分词之后,在对模糊切分词“经常”进行修正处理时,可以先将该模糊切分词“经常”修正为切分词“often”,得到修正后的非模糊切分词,对应的,即将文本描述“常住人口中最近7天经常被酒店探头拍到的人”修正为文本描述“常住人口中最近7天被酒店探头拍到的次数大于等于often”。示例的,以次数分布为0.8为例,则文本描述“常住人口中最近7天被酒店探头拍到的次数大于等于often”可以描述为“(常住人口中最近7天被酒店探头拍到的次数分布,0.8)”。
在基于统计分布对模糊切分词进行修正,得到修正后的非模糊切分词之后,就可以根据文本描述所属领域的元数据,确定每一个非模糊切分词对应的元数据的属性值,即执行下述S503:
S503、根据文本描述所属领域的元数据,确定每一个切分词对应的元数据的属性值。
其中,每一个切分词均为非模糊切分词。
结合上述S501中的举例,继续以文本描述“常住人口中最近7天经常被酒店探头拍到的人”为例,在得到该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的6个切分词之后,就可以根据文本描述所属领域的元数据,确定该6个切分词中每一个切分词对应的元数据属性。示例的,切分词“常驻人口”、切分词“探头”以及切分词“拍到”对应的元数据属性可以为实体表,该实体表可以参见上述表1所示;切分词“最近7天”对应的元数据属性可以为领域描述表,该领域描述表可以参见上述表2所示;切分词“酒店”对应的元数据属性可以为属性表,该属性表可以参见上述表3所示;切分词“often”对应的元数据属性可以为修正表,该修正表可以参见上述表4所示;除此之外,还包括用于描述实体表中各实体之间的关联关系的关系表,该关系表可以参见上述表5所示;以及用于描述领域描述表的函数表,该函数表可以参见上述表6所示,在此,本申请实施例不再进行赘述。其中,切分词“often”的取值为0至7中的任一值。
需要说明的是,在该种场景下,当切分词中包括与文本描述不吻合的切分词时,同样需要先对与文本描述不吻合的切分词进行修正,得到修改后的与文本描述吻合的切分词,然后再根据文本描述所属领域的元数据,确定至少一个切分词中每一个切分词对应的元数据属性;其中,每一个切分词均与文本描述吻合。
在根据文本描述所属领域的元数据,确定至少一个切分词中每一个切分词对应的元数据属性之后,就可以执行下述S504:
S504、根据每一个切分词对应的元数据的属性值,生成统计分布对应的有向无环图。
其中,有向无环图指的是一个无回路的有向图。
示例的,基于上述S503中关于文本描述“常住人口中最近7天经常被酒店探头拍到的人”的相关描述,在得到每一个对应的元数据的属性值之后,就可以根据每一个切分词对应的元数据的属性值,生成文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的元数据映射函数。例如,该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的元数据映射函数为:Person join camera join tantou$now-$day<7loc==酒店count-by-key often(distribute(go-hotel times,0.8))。
在得到文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的元数据映射函数:Person join camera join tantou$now-$day<7loc==酒店count-by-key ofeen(distribute(go-hotel times,0.8))之后,就可以根据该元数据映射函数:Person joincamera join tantou$now-$day<7loc==酒店count-by-key ofeen(distribute(go-hotel times,0.8))统计分布对应的有向无环图。示例的,该统计分布对应的有向无环图可参见图6所示,图6是根据本申请第二实施例提供的有向无环图的示意图。
在根据每一个切分词对应的元数据的属性值,生成统计分布对应的有向无环图之后,就可以根据统计分布对应的有向无环图,生成统计分布对应的可识别标记语言,即执行下述S505:
S505、根据统计分布对应的有向无环图,生成统计分布对应的可识别标记语言。
结合上述图6所示的统计分布对应的有向无环图,可以根据该统计分布对应的有向无环图,生成统计分布对应的可识别标记语言。需要说明的是,统计分布对应的可识别标记语言的生成方法与上述实施例一中文本描述对应的可识别标记语言的生成方法类似,可参见上述实施例一中文本描述对应的可识别标记语言的生成方法的相关描述,在此,本申请实施例不再进行赘述。
在根据统计分布对应的有向无环图,生成统计分布对应的可识别标记语言,即执行下述S506:
S506、根据统计分布对应的可识别标记语言,确定统计分布对应的统计结果。
可以理解的是,由于“常住人口中最近7天经常被酒店探头拍到的人”会有个统计分布,为0至7中的任一值,可以取前80%的人的次数,则会得到一个值,该统计分布对应的统计结果即为常驻人员中,前80%的人的次数,当然,由于次数与文本描述不吻合,可以对其进行修正,修正为天数。
可以看出,通过确定统计分布对应的统计结果,其实质就是将文本描述“常住人口中最近7天经常被酒店探头拍到的人”中的模糊切分词“经常”进行数值化,从而得到该模糊切分词“经常”对应的数值,然后再基于该模糊切分词“经常”对应的数值在数据库中确定与文本描述匹配的目标数据,其过程可以参见下述S507-S509:
S507、根据文本描述和统计分布对应的统计结果,生成文本描述对应的有向无环图。
在该步骤中,由于文本描述“常住人口中最近7天经常被酒店探头拍到的人”中包括模糊切分词“经常”,因此可以结合统计分布对应的统计结果,即该模糊切分词“经常”对应的数值,共同生成该文本描述对应的有向无环图。
S508、根据文本描述对应的有向无环图,生成文本描述对应的可识别标记语言。
需要说明的是,在本申请实施例中,S508中根据文本描述对应的有向无环图,生成文本描述对应的可识别标记语言的方法与上述实施例一中S305根据文本描述对应的有向无环图,生成文本描述对应的可识别标记语言的方法类似,可参见上述S305的相关描述,在此,本申请实施例不再进行赘述。
S509、根据文本描述对应的可识别标记语言,在数据库中确定与文本描述匹配的目标数据。
需要说明的是,在本申请实施例中,S508中根据文本描述对应的可识别标记语言,在数据库中确定与文本描述匹配的目标数据的方法与上述实施例一中S306根据文本描述对应的可识别标记语言,在数据库中确定与文本描述匹配的目标数据的方法类似,可参见上述S306的相关描述,在此,本申请实施例不再进行赘述。
示例的,若数据库中存储了1000个常住人口去酒店的相关信息,若该100个常住人口中,只有500个常住人口最近7天去酒店的天数满足条件,则根据该文本描述“常住人口中最近7天经常被酒店探头拍到的人”对应的可识别标记语言,可以在数据库中计算,确定与文本描述匹配的目标数据为该500个常住人口去酒店的相关信息。示例的,该相关信息可以包括常住人口的姓名、住址、去酒店的次数以及时间等相关信息。
由此可见,本申请实施例提供的文本描述的处理方法,在数据库中查找与文本描述匹配的目标数据时,与现有技术不同的是,当文本描述对应的切分词中包括模糊切分词时,是先基于统计分布对模糊切分词进行修正,得到修正后的非模糊切分词,并根据文本描述所属领域的元数据,确定每一个切分词对应的元数据的属性值,这样基于文本描述所属领域的元数据确定的每一个切分词对应的元数据属性是适用于该领域内的所有场景,再根据每一个切分词对应的元数据的属性值生成统计分布对应统计结果,根据文本描述和统计分布对应的统计结果,在数据库中确定与文本描述匹配的目标数据,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低,从而提高了获取到的文本描述对应的匹配结果的准确度。
可以理解的是,基于上述实施例一和实施例二,在数据库中确定与文本描述匹配的目标数据之后,还可以进一步向工作人员输出与文本描述匹配的目标数据,这样工作人员就可以及时了解到相关情况。
示例的,在输出与文本描述匹配的目标数据时,可以只输出与文本描述匹配的所以常驻人口的相关信息,例如,与文本描述“常住人口中被探头拍到最近7天去酒店的次数大于5天”匹配的所以常驻人口的相关信息,或者,与文本描述“常住人口中最近7天经常被酒店探头拍到的人”匹配的所以常驻人口的相关信息,这样工作人员就可以及时了解到常驻人员的相关情况。当然,也可以输出所有常驻人口的相关信息,例如,与文本描述匹配的常驻人口可以用1或true表示,与文本描述不匹配的常驻人口用0或者false表示。
实施例三
图7是根据本申请第三实施例提供的文本描述的处理装置70的结构示意图,示例的,请参见图7所示,该文本描述的处理装置70可以包括:
获取模块701,用于获取文本描述对应的至少一个切分词;切分词是对文本描述进行切分处理得到的。
处理模块702,用于根据文本描述所属领域的元数据,确定至少一个切分词中每一个切分词对应的元数据属性,并根据每一个切分词对应的元数据的属性值,在数据库中确定与文本描述匹配的目标数据。
可选的,处理模块702,具体用于根据每一个切分词对应的元数据的属性值,生成文本描述对应的有向无环图;根据文本描述对应的有向无环图,生成文本描述对应的可识别标记语言;并根据文本描述对应的可识别标记语言,在数据库中确定与文本描述匹配的目标数据。
可选的,处理模块702,具体用于根据每一个切分词对应的元数据的属性值,生成文本描述对应的元数据映射函数;并根据文本描述对应的元数据映射函数,生成文本描述对应的有向无环图。
可选的,若至少一个切分词中包括与文本描述不吻合的切分词。
处理模块702,具体用于对与文本描述不吻合的切分词进行修正,得到修改后的与文本描述吻合的切分词;并根据文本描述所属领域的元数据,确定至少一个切分词中每一个切分词对应的元数据属性;其中,每一个切分词均与文本描述吻合。
可选的,若至少一个切分词中包括模糊切分词。
处理模块702,具体用于基于统计分布对模糊切分词进行修正,得到修正后的非模糊切分词;并根据文本描述所属领域的元数据,确定每一个切分词对应的元数据的属性值;其中,每一个切分词均为非模糊切分词。
可选的,处理模块702,具体用于根据每一个切分词对应的元数据的属性值,确定统计分布对应的统计结果;并根据文本描述和统计分布对应的统计结果,生成文本描述对应的有向无环图。
可选的,处理模块702,具体用于根据每一个切分词对应的元数据的属性值,生成统计分布对应的有向无环图;并根据统计分布对应的有向无环图,生成统计分布对应的可识别标记语言;再根据统计分布对应的可识别标记语言,确定统计分布对应的统计结果。
可选的,获取模块701,具体用于确定文本描述;并对文本描述进行切分处理,得到文本描述对应的至少一个切分词。
可选的,该文本描述的处理装置70还可以包括:输出模块703,用于输出与文本描述匹配的目标数据。
本申请实施例提供的文本描述的处理装置70,可以执行上述任一实施例中的文本描述的处理方法的技术方案,其实现原理以及有益效果与文本描述的处理方法的实现原理及有益效果类似,可参见文本描述的处理方法的实现原理及有益效果,此处不再进行赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,图8是根据本申请实施例的相似病例的查找方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本描述的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本描述的处理方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本描述的处理方法对应的程序指令/模块(例如,附图7所示的获取模块701、处理模块702和输出模块703)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本描述的处理方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文本描述的处理方法的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至文本描述的处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文本描述的处理方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与文本描述的处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,在数据库中查找与文本描述匹配的目标数据时,是根据文本描述所属领域的元数据,确定文本描述对应的至少一个切分词中每一个切分词对应的元数据属性,这样基于文本描述所属领域的元数据确定的每一个切分词对应的元数据属性是适用于该领域内的所有场景,然后再根据每一个切分词对应的元数据的属性值,在数据库中确定与文本描述匹配的目标数据,这样就可以避免其不能满足所有的场景,会导致根据该参数得到的文本描述对应的匹配结果的准确度较低,从而提高了获取到的文本描述对应的匹配结果的准确度。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种文本描述的处理方法,其特征在于,包括:
获取文本描述对应的至少一个切分词;所述切分词是对所述文本描述进行切分处理得到的;
根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性;
根据所述每一个切分词对应的元数据的属性值,在数据库中确定与所述文本描述匹配的目标数据;
若所述至少一个切分词中包括模糊切分词,则所述根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性,包括:
基于参数的统计分布对所述模糊切分词进行修正,得到修正后的非模糊切分词;
根据所述文本描述所属领域的元数据,确定所述每一个切分词对应的元数据的属性值;其中,所述每一个切分词均为非模糊切分词;
所述根据所述每一个切分词对应的元数据的属性值,在数据库中确定与所述文本描述匹配的目标数据,包括:
根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的有向无环图;
根据所述文本描述对应的有向无环图,生成所述文本描述对应的可识别标记语言;
根据所述文本描述对应的可识别标记语言,在所述数据库中确定与所述文本描述匹配的目标数据;
所述根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的有向无环图,包括:
根据所述每一个切分词对应的元数据的属性值,确定所述统计分布对应的统计结果;
根据所述文本描述和所述统计分布对应的统计结果,生成所述文本描述对应的有向无环图。
2.根据权利要求1所述的方法,其特征在于,所述根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的有向无环图,包括:
根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的元数据映射函数;
根据所述文本描述对应的元数据映射函数,生成所述文本描述对应的有向无环图。
3.根据权利要求1或2所述的方法,其特征在于,若所述至少一个切分词中包括与所述文本描述不吻合的切分词,则所述根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性,包括:
对所述与所述文本描述不吻合的切分词进行修正,得到修改后的与所述文本描述吻合的切分词;
根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性;其中,所述每一个切分词均与所述文本描述吻合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述每一个切分词对应的元数据的属性值,确定所述统计分布对应的统计结果,包括:
根据所述每一个切分词对应的元数据的属性值,生成所述统计分布对应的有向无环图;
根据所述统计分布对应的有向无环图,生成所述统计分布对应的可识别标记语言;
根据所述统计分布对应的可识别标记语言,确定所述统计分布对应的统计结果。
5.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
输出与所述文本描述匹配的目标数据。
6.一种文本描述的处理装置,其特征在于,包括:
获取模块,用于获取文本描述对应的至少一个切分词;所述切分词是对所述文本描述进行切分处理得到的;
处理模块,用于根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性,并根据所述每一个切分词对应的元数据的属性值,在数据库中确定与所述文本描述匹配的目标数据;
若所述至少一个切分词中包括模糊切分词;
所述处理模块,具体用于根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的有向无环图;根据所述文本描述对应的有向无环图,生成所述文本描述对应的可识别标记语言;并根据所述文本描述对应的可识别标记语言,在所述数据库中确定与所述文本描述匹配的目标数据;
所述处理模块,具体用于基于参数的统计分布对所述模糊切分词进行修正,得到修正后的非模糊切分词;并根据所述文本描述所属领域的元数据,确定所述每一个切分词对应的元数据的属性值;其中,所述每一个切分词均为非模糊切分词;
所述处理模块,具体用于根据所述每一个切分词对应的元数据的属性值,确定所述统计分布对应的统计结果;并根据所述文本描述和所述统计分布对应的统计结果,生成所述文本描述对应的有向无环图。
7.根据权利要求6所述的装置,其特征在于,
所述处理模块,具体用于根据所述每一个切分词对应的元数据的属性值,生成所述文本描述对应的元数据映射函数;并根据所述文本描述对应的元数据映射函数,生成所述文本描述对应的有向无环图。
8.根据权利要求6或7所述的装置,其特征在于,若所述至少一个切分词中包括与所述文本描述不吻合的切分词;
所述处理模块,具体用于对所述与所述文本描述不吻合的切分词进行修正,得到修改后的与所述文本描述吻合的切分词;并根据所述文本描述所属领域的元数据,确定所述至少一个切分词中每一个切分词对应的元数据属性;其中,所述每一个切分词均与所述文本描述吻合。
9.根据权利要求6所述的装置,其特征在于,
所述处理模块,具体用于根据所述每一个切分词对应的元数据的属性值,生成所述统计分布对应的有向无环图;并根据所述统计分布对应的有向无环图,生成所述统计分布对应的可识别标记语言;再根据所述统计分布对应的可识别标记语言,确定所述统计分布对应的统计结果。
10.根据权利要求6或7所述的装置,其特征在于,所述装置还包括:
输出模块,用于输出与所述文本描述匹配的目标数据。
11.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的文本描述的处理方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的文本描述的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911338977.3A CN111104418B (zh) | 2019-12-23 | 2019-12-23 | 文本描述的处理方法、装置和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911338977.3A CN111104418B (zh) | 2019-12-23 | 2019-12-23 | 文本描述的处理方法、装置和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111104418A CN111104418A (zh) | 2020-05-05 |
CN111104418B true CN111104418B (zh) | 2023-08-29 |
Family
ID=70423301
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911338977.3A Active CN111104418B (zh) | 2019-12-23 | 2019-12-23 | 文本描述的处理方法、装置和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111104418B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111680508B (zh) * | 2020-06-08 | 2023-05-26 | 北京百度网讯科技有限公司 | 文本的处理方法和装置 |
CN112528067A (zh) * | 2020-12-24 | 2021-03-19 | 北京百度网讯科技有限公司 | 图数据库的存储方法、读取方法、装置及设备 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05334341A (ja) * | 1992-06-02 | 1993-12-17 | Hitachi Ltd | 日本語文解析方法および多品詞解消方法 |
CN104462378A (zh) * | 2014-12-09 | 2015-03-25 | 北京国双科技有限公司 | 用于文本识别的数据处理方法及装置 |
CN104731812A (zh) * | 2013-12-23 | 2015-06-24 | 北京华易互动科技有限公司 | 一种基于文本情感倾向识别的舆情检测方法 |
CN105468792A (zh) * | 2016-01-13 | 2016-04-06 | 山东合天智汇信息技术有限公司 | 一种基于大数据的模糊查询方法及系统 |
CN107392311A (zh) * | 2016-05-17 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 序列切分的方法和装置 |
CN107608957A (zh) * | 2017-09-06 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 基于语音信息的文本修改方法、装置及其设备 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
CN109684634A (zh) * | 2018-12-17 | 2019-04-26 | 北京百度网讯科技有限公司 | 情感分析方法、装置、设备及存储介质 |
CN109885688A (zh) * | 2019-03-05 | 2019-06-14 | 湖北亿咖通科技有限公司 | 文本分类方法、装置、计算机可读存储介质和电子设备 |
CN110347996A (zh) * | 2019-07-15 | 2019-10-18 | 北京百度网讯科技有限公司 | 文字的修改方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2380093B1 (en) * | 2009-01-21 | 2016-07-20 | Telefonaktiebolaget LM Ericsson (publ) | Generation of annotation tags based on multimodal metadata and structured semantic descriptors |
-
2019
- 2019-12-23 CN CN201911338977.3A patent/CN111104418B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05334341A (ja) * | 1992-06-02 | 1993-12-17 | Hitachi Ltd | 日本語文解析方法および多品詞解消方法 |
CN104731812A (zh) * | 2013-12-23 | 2015-06-24 | 北京华易互动科技有限公司 | 一种基于文本情感倾向识别的舆情检测方法 |
CN104462378A (zh) * | 2014-12-09 | 2015-03-25 | 北京国双科技有限公司 | 用于文本识别的数据处理方法及装置 |
CN105468792A (zh) * | 2016-01-13 | 2016-04-06 | 山东合天智汇信息技术有限公司 | 一种基于大数据的模糊查询方法及系统 |
CN107392311A (zh) * | 2016-05-17 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 序列切分的方法和装置 |
CN107608957A (zh) * | 2017-09-06 | 2018-01-19 | 百度在线网络技术(北京)有限公司 | 基于语音信息的文本修改方法、装置及其设备 |
CN108804414A (zh) * | 2018-05-04 | 2018-11-13 | 科沃斯商用机器人有限公司 | 文本修正方法、装置、智能设备及可读存储介质 |
CN109684634A (zh) * | 2018-12-17 | 2019-04-26 | 北京百度网讯科技有限公司 | 情感分析方法、装置、设备及存储介质 |
CN109885688A (zh) * | 2019-03-05 | 2019-06-14 | 湖北亿咖通科技有限公司 | 文本分类方法、装置、计算机可读存储介质和电子设备 |
CN110347996A (zh) * | 2019-07-15 | 2019-10-18 | 北京百度网讯科技有限公司 | 文字的修改方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
Hirokuni Maeta."A Framework for Procedural Text Understanding".《Proceedings of the 14th International Conference on Parsing Technologies》.2015,第52-56页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111104418A (zh) | 2020-05-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522994B (zh) | 用于生成信息的方法和装置 | |
CN111522967B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
US11928432B2 (en) | Multi-modal pre-training model acquisition method, electronic device and storage medium | |
KR20210038449A (ko) | 문답 처리, 언어 모델 훈련 방법, 장치, 기기 및 저장 매체 | |
JP2021082308A (ja) | マルチモーダルコンテンツ処理方法、装置、機器及び記憶媒体 | |
EP3846069A1 (en) | Pre-training method for sentiment analysis model, and electronic device | |
EP3961476A1 (en) | Entity linking method and apparatus, electronic device and storage medium | |
CN112541359B (zh) | 文档内容识别方法、装置、电子设备及介质 | |
CN111695519B (zh) | 关键点定位方法、装置、设备以及存储介质 | |
EP3822815A1 (en) | Method and apparatus for mining entity relationship, electronic device, storage medium, and computer program product | |
CN111538815B (zh) | 一种文本查询方法、装置、设备及存储介质 | |
CN111104418B (zh) | 文本描述的处理方法、装置和电子设备 | |
US11423650B2 (en) | Visual positioning method and apparatus, and computer-readable storage medium | |
CN113032673A (zh) | 资源的获取方法、装置、计算机设备及存储介质 | |
CN111241242B (zh) | 目标内容的确定方法、装置、设备及计算机可读存储介质 | |
CN111640103B (zh) | 图像检测方法、装置、设备以及存储介质 | |
CN111259107A (zh) | 行列式文本的存储方法、装置以及电子设备 | |
CN111309872B (zh) | 搜索处理方法、装置及设备 | |
CN111563198B (zh) | 一种物料召回方法、装置、设备及存储介质 | |
CN111241302B (zh) | 职位信息图谱生成方法、装置、设备和介质 | |
CN111259090A (zh) | 关系数据的图生成方法、装置、电子设备和存储介质 | |
CN111026916B (zh) | 文本描述的转换方法、装置、电子设备及存储介质 | |
CN111177479B (zh) | 获取关系网络图中节点的特征向量的方法以及装置 | |
CN110674262B (zh) | 词语识别方法、装置、电子设备和介质 | |
CN111078671A (zh) | 数据表字段的修改方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |