CN110941715A - 一种实体对象分类判断的方法 - Google Patents
一种实体对象分类判断的方法 Download PDFInfo
- Publication number
- CN110941715A CN110941715A CN201911011093.7A CN201911011093A CN110941715A CN 110941715 A CN110941715 A CN 110941715A CN 201911011093 A CN201911011093 A CN 201911011093A CN 110941715 A CN110941715 A CN 110941715A
- Authority
- CN
- China
- Prior art keywords
- acr
- result
- word
- file
- level
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims abstract description 18
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种实体对象分类判断的方法,包括下述操作:构建一个描述不同关键表述词对应分类结果的关系的文件RF;将该实体对象表述为一串字词组合CS;对所述字词组合CS执行分级分词的方法AC,得到分词结果ACR;对所述分词结果ACR依据判定规则AR进行分析,从而得到实体对象的判定结果;本发明的目的是提供一种分级有序的实体对象分类判断的装置和方法,可以支持最为负责的最高四级语义组合和分析,得到的结果正确度远远高于普通的归类方法。
Description
技术领域
本发明属于实体对象分类判断领域,具体涉及一种实体对象分类判断的方 法。
背景技术
对物体属性、归类的判断是AI自动化系统中一个重要的问题,特别是在音 频对话当中,AI系统需要对物品种类作出合理的归类判断,例如垃圾分类中对 物品垃圾类型的判断;但是当前的分类判断中,都是简单的对整个词组进行判断, 这种判断的错误率很高,不实用。
发明内容
本发明的目的是提供一种分级有序的实体对象分类判断的装置和方法,可以 支持最为负责的最高四级语义组合和分析,得到的结果正确度远远高于普通的归 类方法。
本发明所提供的技术方案是:一种实体对象分类判断的方法,包括下述操作: 构建一个描述不同关键表述词对应分类结果的关系的文件RF;该实体对象被表 述为一串字词组合CS;对所述字词组合CS执行分级分词的方法AC,得到分词 结果ACR;对所述分词结果ACR依据判定规则AR进行分析,从而得到实体对 象的判定结果。
优选的,所述文件RF逐项说明了不同字词或其组合对应的分类结果,所述 文件RF中部分项目的对应分类结果为不确定。
优选的,所述方法AC基于下述的分词规则同时进行操作:
a)一个分词的内部,不存在任何除了名词属性字词之外的字词;
b)一个较长的分词,如果可以,就必须继续拆分为一个或一个以上长度较 短的低层级分词的组合,直到不可以继续拆分或违反上述规则a;
c)记录所有分词的层级和位置。
优选的,所述层级从高到低,位置顺序从右到左排练。
优选的,所述判定规则AR通过下述步骤进行判定:
a)搜索所述文件RF,如果能在所述文件RF中找到所述字词组合CS的对 应分类结果,则直接输出该结果为所述字词组合CS的分类判定结果并退出所述 判定规则AR,否则进入步骤b;
如果所述字词组合CS不存在下一级的分词结果,即所述字词组合CS已经 是最低层级的表述,则输出的分类结果为“不确定”并退出所述判定规则AR, 否则进入步骤b;
b)对比所述字词组合CS低一层的分词结果ACR-CS1中的所有分词,按照 从右到左的顺序,逐个逐次在所述文件RF中进行搜索,第一个对应属性不为“不 确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出AR;或 如果层级ACR-CS1的所有分词都没有被收录在所述文件RF中或在所述文件RF 中的搜索结果仅是“不确定”,且层级ACR-CS1的所有分词都不能依据所述判 定规则AC的方法拆分为更低一层的分词结果ACR-CS2,则输出的分类结果是 “不确定”并退出所述判定规则AR;或如果层级ACR-CS1的所有分词都没有被收录在所述文件RF中或在所述RF中的搜索结果仅是“不确定”,但层级 ACR-CS1的至少一个分词可依据所述判定规则AC的方法拆分为更低一层的分 词结果ACR-CS2,则进入步骤c;
c)对比所述字词组合CS低两层的分词结果ACR-CS2中的所有分词,按照 从右到左的顺序,逐个逐次在所述文件RF中进行搜索,则第一个对应属性不为 “不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述 判定规则AR;或如果层级ACR-CS2的所有分词都没有被收录在RF中或在RF 中的搜索结果仅是“不确定”,且层级ACR-CS2的所有分词都不能依据所述判 定规则AC的方法拆分为更低一层的分词结果ACR-CS3,则输出的分类结果是 “不确定”并退出AR;或如果层级ACR-CS2的所有分词都没有被收录在所述 文件RF中或在所述文件RF中的搜索结果仅是“不确定”,但层级ACR-CS2 的至少一个分词可依据所述判定规则AC的方法拆分为更低一层的分词结果 ACR-CS3,则进入步骤d;
d)对比所述字词组合CS低三层的分词结果ACR-CS3中的所有分词,按照 从右到左的顺序,逐个逐次在所述文件RF中进行搜索,则第一个对应属性不为 “不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述 判定规则AR;或如果层级ACR-CS3的所有分词都没有被收录在所述文件RF中 或在所述文件RF中的搜索结果仅是“不确定”,且ACR-CS3的所有分词都不 能依据所述判定规则AC的方法拆分为更低一层的分词结果ACR-CS4,则输出 的分类结果是“不确定”并退出所述判定规则AR;或如果层级ACR-CS3的所有分词都没有被收录在所述文件RF中或在所述文件RF中的搜索结果仅是“不 确定”,但ACR-CS3的至少一个分词可依据所述判定规则AC的方法拆分为更 低一层的分词结果ACR-CS4,则进入步骤e;
e)对比所述字词组合CS低四层的分词结果ACR-CS4中的所有分词,按照 从右到左的顺序,逐个逐次在所述文件RF中进行搜索,则第一个对应属性不为 “不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述 判定规则AR;或如果层级ACR-CS4的所有分词都没有被收录在所述文件RF中 或在所述文件RF中的搜索结果仅是“不确定”,则输出的分类结果是“不确定” 并退出所述判定规则AR。
有益效果:
本发明的分级有序判断方案,可以支持最为负责的最高四级语义组合和分 析,得到的结果正确度远远高于普通的归类方法。
具体实施方式
下面结合进一步说明本发明的实施例。
实施例1
本实施例中的实体对象分类判断的方法,包括下述操作:构建一个描述不同 关键表述词对应分类结果的关系的文件RF;将该实体对象表述为一串字词组合 CS;对所述字词组合CS执行分级分词的方法AC,得到分词结果ACR;对所述 分词结果ACR依据判定规则AR进行分析,从而得到实体对象的判定结果。
本实施例中,所述文件RF逐项说明了不同字词或其组合对应的分类结果, 所述文件RF中部分项目的对应分类结果为不确定。
优选的,所述方法AC基于下述的分词规则同时进行操作:
a)一个分词的内部,不存在任何除了名词属性字词之外的字词;
b)一个较长的分词,如果可以,就必须继续拆分为一个或一个以上长度较 短的低层级分词的组合,直到不可以继续拆分或违反上述规则a;
c)记录所有分词的层级和位置。
优选的,所述层级从高到低,位置顺序从右到左排练。
优选的,所述判定规则AR通过下述步骤进行判定:
a)搜索所述文件RF,如果能在所述文件RF中找到所述字词组合CS的对 应分类结果,则直接输出该结果为所述字词组合CS的分类判定结果并退出所述 判定规则AR,否则进入步骤b;
如果所述字词组合CS不存在下一级的分词结果,即所述字词组合CS已经 是最低层级的表述,则输出的分类结果为“不确定”并退出所述判定规则AR, 否则进入步骤b;
b)对比所述字词组合CS低一层的分词结果ACR-CS1中的所有分词,按照 从右到左的顺序,逐个逐次在所述文件RF中进行搜索,第一个对应属性不为“不 确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出AR;或 如果层级ACR-CS1的所有分词都没有被收录在所述文件RF中或在所述文件RF 中的搜索结果仅是“不确定”,且层级ACR-CS1的所有分词都不能依据所述判 定规则AC的方法拆分为更低一层的分词结果ACR-CS2,则输出的分类结果是 “不确定”并退出所述判定规则AR;或如果层级ACR-CS1的所有分词都没有被收录在所述文件RF中或在所述RF中的搜索结果仅是“不确定”,但层级 ACR-CS1的至少一个分词可依据所述判定规则AC的方法拆分为更低一层的分 词结果ACR-CS2,则进入步骤c;
c)对比所述字词组合CS低两层的分词结果ACR-CS2中的所有分词,按照 从右到左的顺序,逐个逐次在所述文件RF中进行搜索,则第一个对应属性不为 “不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述 判定规则AR;或如果层级ACR-CS2的所有分词都没有被收录在RF中或在RF 中的搜索结果仅是“不确定”,且层级ACR-CS2的所有分词都不能依据所述判 定规则AC的方法拆分为更低一层的分词结果ACR-CS3,则输出的分类结果是 “不确定”并退出AR;或如果层级ACR-CS2的所有分词都没有被收录在所述 文件RF中或在所述文件RF中的搜索结果仅是“不确定”,但层级ACR-CS2 的至少一个分词可依据所述判定规则AC的方法拆分为更低一层的分词结果 ACR-CS3,则进入步骤d;
d)对比所述字词组合CS低三层的分词结果ACR-CS3中的所有分词,按照 从右到左的顺序,逐个逐次在所述文件RF中进行搜索,则第一个对应属性不为 “不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述 判定规则AR;或如果层级ACR-CS3的所有分词都没有被收录在所述文件RF中 或在所述文件RF中的搜索结果仅是“不确定”,且ACR-CS3的所有分词都不 能依据所述判定规则AC的方法拆分为更低一层的分词结果ACR-CS4,则输出 的分类结果是“不确定”并退出所述判定规则AR;或如果层级ACR-CS3的所有分词都没有被收录在所述文件RF中或在所述文件RF中的搜索结果仅是“不 确定”,但ACR-CS3的至少一个分词可依据所述判定规则AC的方法拆分为更 低一层的分词结果ACR-CS4,则进入步骤e;
e)对比所述字词组合CS低四层的分词结果ACR-CS4中的所有分词,按照 从右到左的顺序,逐个逐次在所述文件RF中进行搜索,则第一个对应属性不为 “不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述 判定规则AR;或如果层级ACR-CS4的所有分词都没有被收录在所述文件RF中 或在所述文件RF中的搜索结果仅是“不确定”,则输出的分类结果是“不确定” 并退出所述判定规则AR。
我们将问题中一系列连续的、表述一个东西的所有字连在一起,称为一个“母词”,而句子中一旦出现连词,例如“和”,就成为两个不同的母词;例如,对 字词组合“钢铁侠模型玩具”这个母词进行判定,首先依据判定规则AC判定其 为较长的分词,从而拆分成下一层级,位置顺序从右到左依次为“玩具、模型和 钢铁侠”,然后对“玩具、模型和钢铁侠”这几个词汇在文件RF中对应搜索, 找到对应的分类,分类可以设置为6大类包括:可回收、有毒、干垃圾、湿垃圾、 不明和特殊,从而将“玩具、模型和钢铁侠”这些词汇搜索处对应的分类,并输 出结果;若判断为“不明”分类的,可以设置提问:“请问它是什么材料制作的”。
以上对本发明的具体实施例进行了详细描述,但其只是作为范例,本发明并 不限制于以上描述具体实施例。对于本领域技术人员而言,任何对本发明进行的 等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明的精神和范围 下所作的均等变换和修改,都涵盖在本发明范围内。
Claims (5)
1.一种实体对象分类判断的方法,其特征在于,包括下述操作:
构建一个描述不同关键表述词对应分类结果的关系的文件RF;该实体对象被表述为一串字词组合CS;对所述字词组合CS执行分级分词的方法AC,得到分词结果ACR;对所述分词结果ACR依据判定规则AR进行分析,从而得到实体对象的判定结果。
2.根据权利要求1所述的一种实体对象分类判断的方法,其特征在于:
所述文件RF逐项说明了不同字词或其组合对应的分类结果,所述文件RF中部分项目的对应分类结果为不确定。
3.根据权利要求1所述的一种实体对象分类判断的方法,其特征在于:
所述方法AC基于下述的分词规则同时进行操作:
a)一个分词的内部,不存在任何除了名词属性字词之外的字词;
b)一个较长的分词,如果可以,就必须继续拆分为一个或一个以上长度较短的低层级分词的组合,直到不可以继续拆分或违反上述规则a;
c)记录所有分词的层级和位置。
4.根据权利要求3所述的一种实体对象分类判断的方法,其特征在于:
所述层级从高到低,位置顺序从右到左排练。
5.根据权利要求4所述的一种实体对象分类判断的方法,其特征在于:
所述判定规则AR通过下述步骤进行判定:
a)搜索所述文件RF,如果能在所述文件RF中找到所述字词组合CS的对应分类结果,则直接输出该结果为所述字词组合CS的分类判定结果并退出所述判定规则AR,否则进入步骤b;
如果所述字词组合CS不存在下一级的分词结果,即所述字词组合CS已经是最低层级的表述,则输出的分类结果为“不确定”并退出所述判定规则AR,否则进入步骤b;
b)对比所述字词组合CS低一层的分词结果ACR-CS1中的所有分词,按照从右到左的顺序,逐个逐次在所述文件RF中进行搜索,第一个对应属性不为“不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述判定规则AR;或如果层级ACR-CS1的所有分词都没有被收录在所述文件RF中或在所述文件RF中的搜索结果仅是“不确定”,且层级ACR-CS1的所有分词都不能依据所述判定规则AC的方法拆分为更低一层的分词结果ACR-CS2,则输出的分类结果是“不确定”并退出所述判定规则AR;或如果层级ACR-CS1的所有分词都没有被收录在所述文件RF中或在所述RF中的搜索结果仅是“不确定”,但层级ACR-CS1的至少一个分词可依据所述判定规则AC的方法拆分为更低一层的分词结果ACR-CS2,则进入步骤c;
c)对比所述字词组合CS低两层的分词结果ACR-CS2中的所有分词,按照从右到左的顺序,逐个逐次在所述文件RF中进行搜索,则第一个对应属性不为“不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述判定规则AR;或如果层级ACR-CS2的所有分词都没有被收录在RF中或在RF中的搜索结果仅是“不确定”,且层级ACR-CS2的所有分词都不能依据所述判定规则AC的方法拆分为更低一层的分词结果ACR-CS3,则输出的分类结果是“不确定”并退出AR;或如果层级ACR-CS2的所有分词都没有被收录在所述文件RF中或在所述文件RF中的搜索结果仅是“不确定”,但层级ACR-CS2的至少一个分词可依据所述判定规则AC的方法拆分为更低一层的分词结果ACR-CS3,则进入步骤d;
d)对比所述字词组合CS低三层的分词结果ACR-CS3中的所有分词,按照从右到左的顺序,逐个逐次在所述文件RF中进行搜索,则第一个对应属性不为“不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述判定规则AR;或如果层级ACR-CS3的所有分词都没有被收录在所述文件RF中或在所述文件RF中的搜索结果仅是“不确定”,且ACR-CS3的所有分词都不能依据所述判定规则AC的方法拆分为更低一层的分词结果ACR-CS4,则输出的分类结果是“不确定”并退出所述判定规则AR;或如果层级ACR-CS3的所有分词都没有被收录在所述文件RF中或在所述文件RF中的搜索结果仅是“不确定”,但ACR-CS3的至少一个分词可依据所述判定规则AC的方法拆分为更低一层的分词结果ACR-CS4,则进入步骤e;
e)对比所述字词组合CS低四层的分词结果ACR-CS4中的所有分词,按照从右到左的顺序,逐个逐次在所述文件RF中进行搜索,则第一个对应属性不为“不确定”的分词的结果,输出为所述字词组合CS的对应分类结果并退出所述判定规则AR;或如果层级ACR-CS4的所有分词都没有被收录在所述文件RF中或在所述文件RF中的搜索结果仅是“不确定”,则输出的分类结果是“不确定”并退出所述判定规则AR。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911011093.7A CN110941715A (zh) | 2019-10-23 | 2019-10-23 | 一种实体对象分类判断的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911011093.7A CN110941715A (zh) | 2019-10-23 | 2019-10-23 | 一种实体对象分类判断的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110941715A true CN110941715A (zh) | 2020-03-31 |
Family
ID=69906241
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911011093.7A Pending CN110941715A (zh) | 2019-10-23 | 2019-10-23 | 一种实体对象分类判断的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110941715A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097570A (zh) * | 2006-06-29 | 2008-01-02 | 上海唯客网广告传播有限公司 | 一种自动识别分类广告类型的广告分类方法 |
US20090248671A1 (en) * | 2008-03-28 | 2009-10-01 | Daisuke Maruyama | Information classification system, information processing apparatus, information classification method and program |
CN101739393A (zh) * | 2008-11-20 | 2010-06-16 | 苗玉水 | 汉语文本智能分词法 |
CN102542061A (zh) * | 2011-12-30 | 2012-07-04 | 互动在线(北京)科技有限公司 | 一种产品的智能分类方法 |
CN102799676A (zh) * | 2012-07-18 | 2012-11-28 | 上海语天信息技术有限公司 | 一种递归多层次中文分词方法 |
CN105677677A (zh) * | 2014-11-20 | 2016-06-15 | 阿里巴巴集团控股有限公司 | 一种信息分类方法及装置 |
CN107818153A (zh) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | 数据分类方法和装置 |
-
2019
- 2019-10-23 CN CN201911011093.7A patent/CN110941715A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097570A (zh) * | 2006-06-29 | 2008-01-02 | 上海唯客网广告传播有限公司 | 一种自动识别分类广告类型的广告分类方法 |
US20090248671A1 (en) * | 2008-03-28 | 2009-10-01 | Daisuke Maruyama | Information classification system, information processing apparatus, information classification method and program |
CN101739393A (zh) * | 2008-11-20 | 2010-06-16 | 苗玉水 | 汉语文本智能分词法 |
CN102542061A (zh) * | 2011-12-30 | 2012-07-04 | 互动在线(北京)科技有限公司 | 一种产品的智能分类方法 |
CN102799676A (zh) * | 2012-07-18 | 2012-11-28 | 上海语天信息技术有限公司 | 一种递归多层次中文分词方法 |
CN105677677A (zh) * | 2014-11-20 | 2016-06-15 | 阿里巴巴集团控股有限公司 | 一种信息分类方法及装置 |
CN107818153A (zh) * | 2017-10-27 | 2018-03-20 | 中航信移动科技有限公司 | 数据分类方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110968700B (zh) | 融合多类事理与实体知识的领域事件图谱构建方法和装置 | |
Dillon et al. | Uncovering latent jet substructure | |
Delbouys et al. | Music mood detection based on audio and lyrics with deep neural net | |
CN110413780B (zh) | 文本情感分析方法和电子设备 | |
US9626358B2 (en) | Creating ontologies by analyzing natural language texts | |
US9424294B2 (en) | Method for facet searching and search suggestions | |
TWI512507B (zh) | A method and apparatus for providing multi-granularity word segmentation results | |
US20170116203A1 (en) | Method of automated discovery of topic relatedness | |
US10445428B2 (en) | Information object extraction using combination of classifiers | |
US20180032508A1 (en) | Aspect-based sentiment analysis using machine learning methods | |
US20190392035A1 (en) | Information object extraction using combination of classifiers analyzing local and non-local features | |
CN112463971B (zh) | 一种基于层级组合模型的电商商品分类方法及系统 | |
US20170161255A1 (en) | Extracting entities from natural language texts | |
CN107463548A (zh) | 短语挖掘方法及装置 | |
CN110569496A (zh) | 实体链接方法、装置及存储介质 | |
CN104866511A (zh) | 一种添加多媒体文件的方法及设备 | |
CN111026886A (zh) | 一种针对专业场景的多轮对话处理方法 | |
WO2015170963A1 (en) | System and method for automatically generating a knowledge base | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN109213990A (zh) | 一种特征提取方法、装置和服务器 | |
CN113868382A (zh) | 从中文自然语言中抽取结构化知识的方法和装置 | |
WO2023246849A1 (zh) | 回馈数据图谱生成方法及冰箱 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN115017425B (zh) | 地点检索方法、装置、电子设备以及存储介质 | |
CN110941715A (zh) | 一种实体对象分类判断的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200331 |
|
RJ01 | Rejection of invention patent application after publication |