CN118541750A - 用于智能朗读显示内容的方法和电子装置 - Google Patents

用于智能朗读显示内容的方法和电子装置 Download PDF

Info

Publication number
CN118541750A
CN118541750A CN202380015068.4A CN202380015068A CN118541750A CN 118541750 A CN118541750 A CN 118541750A CN 202380015068 A CN202380015068 A CN 202380015068A CN 118541750 A CN118541750 A CN 118541750A
Authority
CN
China
Prior art keywords
content
screen
electronic device
embedding
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380015068.4A
Other languages
English (en)
Inventor
苏米特·库玛尔
巴拉特·拉杰·坎达尔·拉哈
维波哈·阿加瓦尔
索拉夫·高希
亚诗瓦特·辛格·塞尼
希曼苏·阿罗拉
哈瑞克韩达那·波哈加拉居·斯瓦拉亚·斯艾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Priority claimed from PCT/KR2023/000511 external-priority patent/WO2023136605A1/en
Publication of CN118541750A publication Critical patent/CN118541750A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • G10L2013/105Duration

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

提供了一种用于由电子装置智能朗读显示内容的方法。所述方法包括基于在所述电子装置的屏幕上显示的多个内容来获得屏幕表征。所述方法包括基于所述屏幕表征从所述多个内容中提取多个见解,所述多个见解包括所述多个内容的意图、重要性、情感、声音表征和信息序列中的至少一个。所述方法包括生成模拟所提取的多个见解的音频。

Description

用于智能朗读显示内容的方法和电子装置
技术领域
本公开涉及一种电子装置。更具体地,本公开涉及一种用于智能朗读显示内容的方法和电子装置。
背景技术
电子装置(诸如,智能电话、膝上型计算机等)的视障用户使用屏幕朗读选项来理解包括文本、表情符号等的显示内容。即使对于使用机器人助理、物联网(IoT)装置、语音助理装置(如Bixby、Echo等)的正常用户也需要使用屏幕朗读选项朗读显示内容。屏幕朗读选项使用现有的文本到语音(TTS)方法工作。屏幕朗读选项允许装置朗读显示内容中的文本或与表情符号相关联的定义/文本。
图1和图2示出了根据相关技术的由电子装置朗读显示内容的屏幕。考虑电子装置接收到包括文本和一组表情符号的生日愿望消息。
参照图1的11,电子装置显示包括生日愿望消息和消息的接收时间的内容。然后,电子装置将显示内容朗读为“生日快乐蛋糕派对脸派对礼花气球包裹礼物五彩纸屑十七零四在列表中十九项”。用户希望知道生日愿望消息的含义。电子装置不是有意义地朗读显示内容(11),而是在不提供任何暂停或不提供旨在用于该组表情符号的情感含义的情况下简单地朗读文本、表情符号的定义和时间。因此,用户将变得困惑,并且显示内容的实际意图在详述每一个显示内容时丢失。
参照图2,考虑电子装置显示包括3个文本消息和每个消息下的消息接收时间的3个聊天消息(12-14)。电子装置将第一聊天消息(12)朗读为“哇超级图片今天是什么日子二十三零一二双击并保持以选择消息”。电子装置将第二聊天消息(13)朗读为“Anita你看起来非常漂亮并且Yajat看起来超级英俊ok手浅肤色ok手浅肤色二十三零二双击并保持以选择消息”。电子装置将第二聊天消息(14)朗读为“Sumit在哪拍个自拍并发送也二十三零二双击并保持以选择消息”。用户希望知道聊天消息的含义。在不理解含义、意图、上下文、情感和敏感性的情况下,电子装置照原样朗读显示内容(12-14),而不是有意义地朗读显示内容。因此,用户将变得困惑并且将不理解显示内容的实际含义。因为电子装置在有意义地朗读显示内容方面缺乏智能,所以电子装置在不知道相关/不相关内容的情况下朗读全部显示内容。此外,电子装置不将意图/上下文/情感与显示内容相关联,并且因此所朗读的消息看起来更像是机械而不是人类。因此,期望提供一种用于智能朗读电子装置的显示内容的方案。
以上信息仅作为背景信息呈现以帮助理解本公开。关于以上内容中的任何内容是否可以适用为关于本公开的现有技术适用,没有做出确定,也没有做出断言。
发明内容
技术方案
本公开的各方面旨在至少解决上述问题和/或缺点,并且至少提供下面描述的优点。因此,本公开的一个方面是提供一种用于智能朗读显示内容的方法和电子装置。电子装置通过理解屏幕上的显示内容并基于具有风格模仿的受控内容生成网络提供生成式文本朗读和生成式声音表达来有意义地朗读显示内容,这对于视障的用户是显著有益的,并且还为一般用户带来直观的用户体验。
另外的方面将部分地在下面的描述中阐述,并且部分地将从描述中显而易见,或者可以通过实践所呈现的实施例来学习。
根据本公开的一方面,提供了一种用于由电子装置智能朗读显示内容的方法。所述方法包括由所述电子装置分析在所述电子装置的屏幕上显示的多个内容。所述方法包括由所述电子装置基于所述分析从所述多个内容提取包括所述多个内容的意图、重要性、情感、声音表征和信息序列的多个见解。所述方法包括由所述电子装置生成模拟所提取的多个见解的音频。
在本公开的实施例中,其中,由所述电子装置基于所述分析从所述多个内容中提取包括意图、重要性、情感、声音表征和信息序列的所述多个见解的步骤包括:由所述电子装置基于所述分析生成屏幕表征,以及由所述电子装置使用所述屏幕表征确定包括意图、重要性、情感、声音表征和信息序列的所述多个见解。
在本公开的实施例中,其中,由所述电子装置基于所述分析生成所述屏幕表征的步骤包括:由所述电子装置通过对所述多个内容中的每个内容进行编码来生成内容嵌入,由所述电子装置分析所述屏幕上的视图,由所述电子装置基于所述分析来识别所述视图中的每个视图的重要性和所述视图之间的关系,由所述电子装置通过基于所述视图中的每个视图的重要性和所述视图之间的关系对所述视图进行分组来生成上下文内容组,以及由所述电子装置使用所述内容嵌入和所述上下文内容组来确定所述屏幕表征。
在本公开的实施例中,其中,由所述电子装置通过基于所述视图中的每个视图的重要性和所述视图之间的关系对所述视图进行分组来生成所述上下文内容组的步骤包括:由所述电子装置选择所述视图中的当前视图,由所述电子装置识别当前视图的先前子视图和后续子视图,由所述电子装置解析所述当前视图、所述先前子视图和所述后续子视图以获取所述当前视图、所述先前子视图和所述后续子视图中的所述多个内容,由所述电子装置确定所述当前视图和/或所述先前子视图和/或所述后续子视图是否具有上下文相关字段,由所述电子装置从所述上下文相关字段确定相关上下文,由所述电子装置基于所述相关上下文将所述当前视图、所述先前子视图和所述后续子视图分类为重要类别或不重要类别,以及由所述电子装置将所述视图的内容分组为所述重要类别中。
在本公开的实施例中,其中,由所述电子装置使用所述屏幕表征确定所述声音表征的步骤包括:由所述电子装置分析屏幕表征中存在的包括文本和表情符号的多模态特征,由所述电子装置使用深度神经网络(DNN)生成所述屏幕表征中的所述多模态特征的多模态嵌入,以及由所述电子装置使用所述DNN将所述多模态嵌入分类为属于声音表征的声音标签。
在本公开的实施例中,其中,由所述电子装置使用所述DNN从所述屏幕表征中的所述多模态特征生成所述多模态嵌入的步骤包括:由所述电子装置基于所述多模态特征中的文本创建词嵌入和字符嵌入,由所述电子装置基于所述词嵌入和所述字符嵌入创建文本嵌入,由所述电子装置确定所述多模态特征中的所述表情符号的文本定义,由所述电子装置基于所述表情符号的文本定义创建表情符号嵌入,以及由所述电子装置基于所述表情符号嵌入和所述文本嵌入生成所述多模态嵌入。
在本公开的实施例中,其中,由所述电子装置使用所述DNN将所述多模态嵌入分类为属于声音表征的声音标签之一的步骤包括:由所述电子装置通过将所述多模态嵌入通过具有共享权重的双卷积神经网络来确定能量函数的相似性分数,其中,所述双卷积神经网络通过最小化三元组损失函数来学习所述共享权重和所述相似性分数,以及由所述电子装置基于所述能量函数的所述相似性分数将所述多模态嵌入分类为属于声音表征的声音标签之一。
在本公开的实施例中,其中,由所述电子装置使用所述屏幕表征确定意图、重要性和情感的步骤包括:由所述电子装置从所述屏幕表征创建字符嵌入、词嵌入和表情符号嵌入,由所述电子装置通过对所述字符嵌入、所述词嵌入和所述表情符号嵌入进行级联来确定堆叠的门控循环单元(GRU),由所述电子装置基于堆叠的GRU确定意图注意力、重要性注意力和情感注意力以及每个注意力的对应损失函数,以及由所述电子装置基于所述意图注意力、所述重要性注意力和所述情感注意力以及每个注意力的对应损失函数来确定所述意图、所述重要性和所述情感。
在本公开的实施例中,其中,由所述电子装置使用所述屏幕表征确定所述信息序列的步骤包括:由所述电子装置确定包括所述屏幕表征上存在的视频、图像和表情符号的所述多模态特征的文本定义,由所述电子装置基于所述多模态特征的文本定义创建所述词嵌入和所述字符嵌入,由所述电子装置基于所述字符嵌入确定字符表征,由电子装置基于所述字符表征和所述词嵌入确定词表征,以及由所述电子装置基于所述词表征确定所述信息序列。
在本公开的实施例中,其中,由所述电子装置生成模拟所提取的多个见解的音频的步骤包括:由所述电子装置确定所述多个内容的蓝图,由所述电子装置通过基于所提取的多个见解和所述蓝图从所述多个内容受控地生成具有风格模仿的内容来确定所述生成式内容,以及由所述电子装置将所述生成式内容提供给屏幕朗读器以生成模拟所述生成式内容的音频。
在本公开的实施例中,其中,由所述电子装置通过基于所提取的多个见解和所述蓝图从所述多个内容中受控地生成具有风格模仿的内容来确定所述生成式内容的步骤包括:由所述电子装置基于所述多个内容的意图、上下文、情感、敏感性和句子理解来从所述多个内容中确定上下文短语,由所述电子装置基于声音标签来确定所述多个内容的表情符号的声音表达,由所述电子装置确定所述多个内容的概要,由所述电子装置基于所述电子装置的用户的性别、多语言特征和人口统计特征来确定个性化声音,以及由所述电子装置基于所提取的多个见解、所述蓝图、所述个性化声音、所述多个内容的所述概要、所述声音表达和所述上下文短语来生成生成式内容。
根据本公开的另一方面,提供了一种用于智能朗读显示内容的电子装置。所述电子装置包括智能屏幕朗读引擎、存储器、至少一个处理器和屏幕,其中,所述智能屏幕朗读引擎耦接到所述存储器和所述处理器。所述智能屏幕朗读引擎被配置用于分析所述屏幕上显示的多个内容。所述智能屏幕朗读引擎被配置用于基于所述分析从所述多个内容中提取包括所述多个内容的意图、重要性、情感、声音表征和信息序列的多个见解。所述智能屏幕朗读引擎被配置用于生成模拟所提取的多个见解的音频。
在本公开的实施例中,提供了一种用于由电子装置智能朗读显示内容的方法。所述方法包括基于在所述电子装置的屏幕上显示的多个内容来获得屏幕表征。所述方法包括基于所述屏幕表征从所述多个内容提取包括所述多个内容的意图、重要性、情感、声音表征和信息序列中的至少一个的多个见解。所述方法包括生成模拟所提取的多个见解的音频。
在本公开的实施例中,提供了一种用于智能朗读显示内容的电子装置。所述电子装置包括屏幕。所述电子装置包括存储一个或更多个指令的存储器。所述电子装置包括至少一个处理器130,被配置为执行存储在所述存储器中的一个或更多个指令以:基于所述电子装置的屏幕上显示的多个内容获得屏幕表征,基于所述屏幕表征从所述多个内容中提取包括所述多个内容的意图、重要性、情感、声音表征和信息序列中的至少一个的多个见解,以及生成模拟所提取的多个见解的音频。
在本公开的实施例中,提供了一种计算机可读介质。所述计算机可读介质包括指令,所述指令在被执行时使至少一个处理器:基于在所述电子装置的屏幕上显示的多个内容获得屏幕表征,基于所述屏幕表征从所述多个内容提取包括所述多个内容的意图、重要性、情感、声音表征和信息序列中的至少一个的多个见解,以及生成模拟所提取的多个见解的音频。
通过以下结合附图公开了本公开的各种实施例的详细描述,本公开的其它方面、优点和显著特征对于本领域技术人员将变得清楚。
附图说明
根据以下结合附图的描述,本公开的某些实施例的上述和其它方面、特征和优点将更加清楚,其中:
图1和图2示出了根据相关技术的由装置朗读显示内容的屏幕;
图3是根据本公开的实施例的用于智能朗读显示内容的电子装置的框图;
图4是示出用于由根据本公开的实施例的电子装置智能朗读显示内容的方法的流程图;
图5是示出根据本公开的实施例的生成屏幕表征的实施例的流程图;
图6是示出根据本公开的实施例的生成上下文内容组的实施例的流程图;
图7A是示出用于由根据本公开的实施例的电子装置生成上下文内容组的方法的流程图;
图7B和7C示出了根据本公开的实施例的视图层级、视图和上下文内容组;
图8是示出用于由根据本公开的实施例的电子装置从多个内容确定多个见解的方法的流程图;
图9是示出用于由根据本公开的实施例的电子装置使用孪生神经网络来确定多个内容的声音表征的方法的流程图;
图10是示出用于由根据本公开的实施例的电子装置确定意图、重要性、情感的方法的流程图;
图11是示出用于由根据本公开的实施例的电子装置确定多个内容的信息序列的方法的流程图;
图12是示出用于由根据本公开的实施例的电子装置生成生成式内容的方法的流程图;
图13是示出根据本公开的实施例的生成生成式内容的实施例的流程图;
图14是示出根据本公开的实施例的从多个内容确定上下文短语的实施例的流程图;
图15是示出根据本公开的实施例的从多个内容确定上下文短语的实施例的流程图;
图16是示出根据本公开的实施例的从多个内容确定声音表达的实施例的流程图;
图17是示出根据本公开的实施例的确定多个内容的概要的方法的流程图;
图18是示出根据本公开的实施例的生成多个内容的情感文本到语音(TTS)的方法的流程图;
图19A、图19B、图19C、图19D和图19E示出了由相关技术的装置和所提出的根据本公开的各种实施例的电子装置朗读内容的比较;
图20A和图20B示出了由相关技术的装置和所提出的根据本公开的各种实施例的电子装置朗读通知窗口中的内容的比较;
图21示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读联系人应用中的联系人的内容的比较;
图22示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读联系人应用中的联系人列表的内容的比较;
图23示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读图库应用的内容的比较;
图24示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读社交媒体应用的内容的比较;
图25示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读日历应用的内容的比较;
图26示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读搜索结果的内容的比较;
图27示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读对聊天消息的回复的内容的比较;
图28示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读噪声消除设置的内容的比较;
图29示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读另一社交媒体应用中的帖子的内容的比较;以及
图30示出了由根据本公开的实施例的电子装置朗读的不同内容。
在整个附图中,应当注意,相同的参考标号用于描述相同或相似的元件、特征和结构。
具体实施方式
提供参照附图的以下描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体细节以帮助理解,但是这些细节仅被认为是示例性的。因此,本领域普通技术人员将认识到,在不脱离本公开的范围和精神的情况下,可以对本文描述的各种实施例进行各种改变和修改。此外,为了清楚和简明,可以省略对公知功能和构造的描述。
在以下描述和权利要求中使用的术语和词语不限于书面含义,而是仅由发明人使用以使得能够清楚且一致地理解本公开。因此,对于本领域技术人员清楚的是,提供本公开的各种实施例的以下描述仅用于说明目的,而不是为了限制由所附权利要求及其等同物限定的本公开的目的。
将理解,除非上下文另有明确指出,否则单数形式“一”、“一个”和“所述”包括复数指代。因此,例如,对“组件表面”的引用包括对一个或更多个这样的表面的引用。
如本领域中的传统,可以以执行所描述的一个或更多个功能的块来描述和示出实施例。在本文中可以被称为管理器、单元、模块、硬件组件等的这些块由模拟和/或数字电路(诸如,逻辑门、集成电路、微处理器、微控制器、存储器电路、无源电子组件、有源电子组件、光学组件、硬连线电路等)物理地实现,并且可以可选地由固件驱动。电路可以例如实现在一个或更多个半导体芯片中,或者实现在诸如印刷电路板等的基板支撑件上。构成块的电路可以由专用硬件、或由处理器(例如,一个或多个编程的微处理器和相关联的电路)、或由执行块的一些功能的专用硬件和执行块的其它功能的处理器的组合来实现。在不脱离本公开的范围的情况下,实施例的每个块可以物理地分离为两个或更多个交互和分离的块。同样地,在不脱离本公开的范围的情况下,实施例的块可以物理地组合为更复杂的块。
附图用于帮助容易地理解各种技术特征,并且应当理解,本文呈现的实施例不受附图的限制。因此,本公开应当被解释为扩展到除了附图中具体阐述的那些之外的任何改变、等同物和替代物。尽管本文可以使用术语第一、第二等来描述各种元件,但是这些元件不应受这些术语的限制。这些术语通常仅用于将一个元件与另一元件区分开。
因此,本文的实施例提供了一种用于由电子装置智能朗读显示内容的方法。所述方法包括由所述电子装置分析在所述电子装置的屏幕上显示的多个内容。所述方法包括由所述电子装置基于所述分析从所述多个内容提取包括所述多个内容的意图、重要性、情感、声音表征和信息序列的多个见解。所述方法包括由所述电子装置生成模拟所提取的多个见解的音频。
因此,本文的实施例提供了一种用于智能朗读显示内容的电子装置。所述电子装置包括智能屏幕朗读引擎、存储器、处理器和屏幕,其中,所述智能屏幕朗读引擎被耦接到所述存储器和所述处理器。所述智能屏幕朗读引擎被配置用于分析所述屏幕上显示的多个内容。所述智能屏幕朗读引擎被配置用于基于所述分析从所述多个内容提取包括所述多个内容的意图、重要性、情感、声音表征和信息序列的多个见解。所述智能屏幕朗读引擎被配置用于生成模拟所提取的多个见解的音频。
与现有的方法和系统不同,所述电子装置通过使用屏幕图形理解显示内容、使用DNN推导内容见解、以及基于具有风格模仿的受控内容生成网络提供生成式文本朗读和生成式声音表达来有意义地朗读屏幕中的显示内容,这对于视障的用户是显著有益的,并且还为一般用户带来直观的用户体验。
现在参照附图,并且更具体地参照图3至图6、图7A、图7B、图7C、图8至图18、图19A至图19E、图20A、图20B和图21至图30,示出了优选实施例。
图3是根据本公开的实施例的用于智能朗读显示内容的电子装置的框图。
参照图3,电子装置(100)的示例包括但不限于智能电话、平板计算机、个人数字助理(PDA)、台式计算机、物联网(IoT)、机器人助理、语音助理装置等。在本公开的实施例中,电子装置(100)包括智能屏幕朗读引擎(110)、存储器(120)、处理器(130)、通信器(140)和屏幕(150)。
存储器(120)包括用于存储与表情符号相关联的声音注释的数据库。存储器(120)存储将由处理器(130)执行的指令。存储器(120)可以包括非易失性存储元件。这种非易失性存储元件的示例可以包括磁硬盘、光盘、软盘、闪存或者电可编程存储器(EPROM)或电可擦除可编程(EEPROM)存储器的形式。此外,存储器(120)在一些示例中可以被认为是非暂时性存储介质。术语“非暂时性”可以指示存储介质不实现在载波或传播信号中。然而,术语“非暂时性”不应被解释为存储器(120)是不可移动的。在一些示例中,存储器(120)可以被配置为存储比其存储空间更大量的信息。在某些实例中,非暂时性存储介质可存储(例如,在随机存取存储器(RAM)或高速缓冲存储器中)可随时间改变的数据。存储器(120)可以是内部存储单元,或者它可以是电子装置(100)的外部存储单元、云存储器或任何其它类型的外部存储器。
处理器(130)被配置为执行存储在存储器(120)中的指令。处理器(130)可以是通用处理器(诸如,中央处理单元(CPU)、应用处理器(AP)等)、仅图形处理单元(诸如,图形处理单元(GPU)、视觉处理单元(VPU)等)。处理器(130)可以包括多个核以执行指令。
通信器(140)被配置用于在电子装置(100)中的硬件组件之间进行内部通信。此外,通信器(140)被配置为经由一个或更多个网络(例如,无线电技术)促进电子装置(100)与其它装置之间的通信。通信器(140)包括专用于能够进行有线或无线通信的标准的电子电路。
屏幕(150)是可以用于显示内容并且可以从用户接收输入的物理硬件组件。屏幕(150)的示例包括但不限于发光二极管显示器、液晶显示器等。
智能屏幕朗读引擎(110)由诸如逻辑门、集成电路、微处理器、微控制器、存储器电路、无源电子组件、有源电子组件、光学组件、硬连线电路等的处理电路实现,并且可以可选地由固件驱动。电路可以例如实现在一个或更多个半导体芯片中,或者实现在诸如印刷电路板等的基板支撑件上。
与在图3中被示出为与处理器(130)和存储器(120)分开的配置的智能屏幕朗读引擎(110)不同,本公开不限于此。在本公开的实施例中,智能屏幕朗读引擎(110)的功能的至少一部分由存储器(120)和处理器(130)实现。存储器(120)存储将由处理器(130)执行的与智能屏幕朗读引擎(110)的功能相应的指令。
在本公开的实施例中,智能屏幕朗读引擎(110)包括屏幕图形生成器(111)、内容见解确定器(112)和生成式内容创建器(113)。屏幕图形生成器(111)、内容见解确定器(112)和生成式内容创建器(113)由诸如逻辑门、集成电路、微处理器、微控制器、存储器电路、无源电子组件、有源电子组件、光学组件、硬连线电路等的处理电路实现,并且可以可选地由固件驱动。电路可以例如实现在一个或更多个半导体芯片中,或者实现在诸如印刷电路板等的基板支撑件上。
智能屏幕朗读引擎(110)分析在屏幕(150)上显示的多个内容。智能屏幕朗读引擎(110)可以基于屏幕(150)上显示的多个内容来获得屏幕表征。在本公开中,术语“表征”可指示表征特定数据的特征的提取或编码的数据(例如,特征图)。内容包括文本、表情符号、图像和视频。此外,智能屏幕朗读引擎(110)基于屏幕表征或所述分析从多个内容提取包括多个内容的意图、重要性、情感、声音表征(例如,通知声音)和信息序列的多个见解。声音表征基于性别、情感、语言、内容的性质和内容的上下文而变化。此外,智能屏幕朗读引擎(110)生成模拟所提取的多个见解的音频和提供有意义信息的增强文本。
在本公开的实施例中,为了获得屏幕表征,智能屏幕朗读引擎(110)可以基于屏幕上显示的多个内容来获得多个屏幕嵌入。智能屏幕朗读引擎(110)可以基于屏幕上显示的多个内容来获得多个上下文内容组。智能屏幕朗读引擎(110)可以基于多个屏幕嵌入和多个上下文内容组来获得屏幕表征。
在本公开的实施例中,为了基于所述分析从多个内容中提取包括意图、重要性、情感、声音表征和信息序列的多个见解,包括智能屏幕朗读引擎(110)基于所述分析生成屏幕表征。屏幕表征通过使用视图层级和视图位置进行分组来精确地表示整个屏幕视图。此外,智能屏幕朗读引擎(110)使用屏幕表征来确定包括意图、重要性、情感、声音表征和信息序列的多个见解。
在本公开的实施例中,为了基于所述分析生成屏幕表征,智能屏幕朗读引擎(110)通过对多个内容中的每个内容进行编码来生成内容嵌入。此外,智能屏幕朗读引擎(110)分析屏幕(150)上的视图。在屏幕(150)上显示的内容被划分为多个视图。考虑在聊天线程中,内容的顶部组件包含简档信息,随后是诸如发送者和接收者的聊天消息等的组件,其中每个组件是视图。屏幕(150)的视图层级中的布局信息有助于定位图标元素。然后应用基于像素的对象分类来识别屏幕(150)上的图标类型。此外,智能屏幕朗读引擎(110)基于所述分析来识别每个视图的重要性和视图之间的关系。此外,智能屏幕朗读引擎(110)通过基于每个视图的重要性和视图之间的关系对视图进行分组来生成上下文内容组。此外,智能屏幕朗读引擎(110)使用内容嵌入和上下文内容组来确定屏幕表征。
在本公开的实施例中,为了通过基于每个视图的重要性和视图之间的关系对视图进行分组来生成上下文内容组,智能屏幕朗读引擎(110)获得(或接收)视图中的当前视图。当前视图可以由用户选择,并且智能屏幕朗读引擎(110)可以从用户获得输入(即,用户输入)。此外,智能屏幕朗读引擎(110)识别当前视图的先前子视图和后续子视图。此外,智能屏幕朗读引擎(110)解析当前视图、先前子视图和后续子视图,以获取当前视图、先前子视图和后续子视图中的多个内容。此外,智能屏幕朗读引擎(110)确定当前视图和/或先前子视图和/或后续子视图是否具有上下文相关字段(例如,时间、已读/未读状态、在联系人的情况下的关系)。此外,智能屏幕朗读引擎(110)从上下文相关字段确定相关上下文。此外,智能屏幕朗读引擎(110)基于相关上下文将当前视图、先前子视图和后续子视图分类为重要类别或不重要类别。此外,智能屏幕朗读引擎(110)将视图的内容分组到重要类别中。
在本公开的实施例中,深度神经网络被训练为基于视图的相关上下文来生成视图的重要性分数。智能屏幕朗读引擎(110)可以使用重要性分数将视图分类为重要类别或不重要类别。例如,一个视图的重要性分数大于预定重要性阈值,该视图可以被分类为重要类别。另一视图的重要性分数小于或等于预定重要性阈值,该视图可以被分类为重要类别。
在本公开的实施例中,为了使用屏幕表征来确定声音表征,智能屏幕朗读引擎(110)分析屏幕表征中存在的包括文本和表情符号的多模态特征。智能屏幕朗读引擎(110)基于屏幕表征获得包括文本和表情符号的多模态特征。此外,智能屏幕朗读引擎(110)使用DNN基于多模态特征生成多模态嵌入,并将多模态嵌入分类为属于声音表征的声音标签。诸如使用孪生网络架构的多模态输入分类(MICSA)的孪生神经网络是DNN的示例。
在本公开的实施例中,为了使用DNN从屏幕表征中的多模态特征生成多模态嵌入,智能屏幕朗读引擎(110)基于多模态特征中的文本生成(或创建)词嵌入和字符嵌入。此外,智能屏幕朗读引擎(110)基于词嵌入和字符嵌入来生成(或创建)文本嵌入。此外,智能屏幕朗读引擎(110)确定多模态特征中的表情符号的文本定义。此外,智能屏幕朗读引擎(110)基于表情符号的文本定义来生成(或创建)表情符号嵌入。此外,智能屏幕朗读引擎(110)基于表情符号嵌入和文本嵌入来生成多模态嵌入。表情符号的文本定义(或表情符号定义)可以指示解释表情符号的使用的上下文的文本描述。表情符号的文本定义可以通过使用被训练为基于表情符号生成表情符号的描述的深度神经网络来生成。
在本公开的实施例中,为了使用DNN将多模态嵌入分类为属于声音表征的声音标签之一,智能屏幕朗读引擎(110)通过使多模态嵌入通过具有共享权重的双卷积神经网络来确定能量函数的相似性分数。相似性分数是两个数据对象(例如,声音数据)的相似性的度量。双卷积神经网络通过最小化三元组损失函数来学习共享权重和相似性分数。此外,智能屏幕朗读引擎(110)基于能量函数的相似性分数将多模态嵌入分类为属于声音表征的声音标签之一。
在本公开的实施例中,为了使用屏幕表征来确定意图、重要性和情感,智能屏幕朗读引擎(110)从屏幕表征生成(或创建)字符嵌入、词嵌入和表情符号嵌入。此外,智能屏幕朗读引擎(110)将字符嵌入、词嵌入和表情符号嵌入进行级联。此外,智能屏幕朗读引擎(110)使用堆叠门控循环单元(GRU)基于级联的结果来确定意图注意力、重要性注意力和情感注意力以及每个注意力的对应损失函数。通过将注意力机制应用于意图、重要性和情感来确定意图注意力、重要性注意力和情感注意力。此外,智能屏幕朗读引擎(110)基于意图注意力、重要性注意力和情感注意力以及每个注意力的对应损失函数来确定意图、重要性和情感。
在本公开的实施例中,为了使用屏幕表征来确定信息序列,智能屏幕朗读引擎(110)确定屏幕表征中存在的包括视频、图像和表情符号的多模态特征的文本定义。此外,智能屏幕朗读引擎(110)基于多模态特征的文本定义来生成(或创建)词嵌入和字符嵌入。通过提取词令牌(word token)并使词令牌通过嵌入层来生成(或创建)词嵌入。通过将每个词划分为字符并使用每个字符的一个或更多个组合来确定字符嵌入来生成(或创建)字符嵌入。例如,词“Hello”被划分为“H”、“E”、“L”、“L”、“O”。
此外,智能屏幕朗读引擎(110)基于字符嵌入来确定字符表征。此外,智能屏幕朗读引擎(110)基于字符表征和词嵌入来确定词表征。词表征是作为语义空间中的数字向量的词的表征,其可以作为机器学习模型的输入给出,以便更好地理解意图和情感。字符表征是作为语义空间中的数字向量的字符的表征,其可以作为机器学习模型的输入给出,以便更好地理解意图和情感。此外,智能屏幕朗读引擎(110)基于词表征来确定信息序列。此外,智能屏幕朗读引擎(110)基于词表征来确定信息序列。
在本公开的实施例中,为了生成模拟所提取的多个见解的音频,智能屏幕朗读引擎(110)确定多个内容的蓝图。如图13中所见的蓝图是日常使用场景中有意义文本的标准表征。蓝图可以是预定的或通过用户输入获得。此外,智能屏幕朗读引擎(110)通过基于所提取的多个见解和蓝图从多个内容中受控地生成具有风格模仿的内容来确定生成式内容。此外,智能屏幕朗读引擎(110)将生成式内容提供给屏幕朗读器以生成模拟生成式内容的音频。
在本公开的实施例中,为了通过基于所提取的多个见解和蓝图从多个内容受控地生成具有风格模仿的内容来确定生成式内容,智能屏幕朗读引擎(110)基于多个内容的意图、上下文、情感、敏感性和句子理解来从多个内容中确定上下文短语。上下文短语是通过结合来自输入消息的相关知识而生成的序列,例如:消息的意图、来自表情符号的情感、消息敏感性、消息发送者信息等。此外,智能屏幕朗读引擎(110)基于声音标签确定多个内容的表情符号的声音表达。声音表达可以是声音的夸张、声音的混搭、顺序播放声音等。此外,智能屏幕朗读引擎(110)确定多个内容的概要。此外,智能屏幕朗读引擎(110)基于用户的性别、多语言特征和人口统计特征来确定个性化声音。此外,智能屏幕朗读引擎(110)基于所提取的多个见解、蓝图、个性化声音、多个内容的概要、声音表达和上下文短语来生成生成式内容。
屏幕图形生成器(111)理解视图并确定视图重要性、视图关系和视图上下文。生成式内容创建器(113)通过美化显示内容、识别显示内容中的符号/表情符号表达、将显示内容概括为文本形式、提供表达性TTS、从显示内容中去除敏感性以及提供连续性来有意义地朗读生成式内容。内容见解确定器(112)确定内容的情感和意图。生成式内容创建器(113)通过基于意图、上下文、情感、敏感性和句子理解生成将被朗读的文本来控制具有风格模仿的生成式内容的生成。生成式内容创建器(113)基于表情符号组合将声音表达包括到生成式内容中,如夸张、混搭等。生成式内容创建器(113)基于如通知和消息中的多语言和人口统计的特征将个性化声音包括到生成式内容中。
尽管图3示出了电子装置(100)的硬件组件,但是将理解的是,其它实施例不限于此。在本公开的其它实施例中,电子装置(100)可以包括更少或更多数量的组件。此外,组件的标签或名称仅用于说明目的,并不限制本公开的范围。一个或更多个组件可以组合在一起以执行用于智能地朗读显示内容的相同或基本相似的功能。
图4是示出用于由根据本公开的实施例的电子装置智能朗读显示内容的方法的流程图。
参照图4,在本公开的实施例中,所述方法允许智能屏幕朗读引擎(110)执行流程图(400)的操作401-403。在操作401,所述方法包括分析屏幕(150)上显示的多个内容。在操作402,所述方法包括基于所述分析从多个内容中提取包括多个内容的意图、重要性、情感、声音表征和信息序列的多个见解。在操作403,所述方法包括生成模拟所提取的多个见解的音频。
流程图(400)中的各种动作、行为、框、步骤等可以以所呈现的顺序、以不同的顺序或同时执行。此外,在本公开的一些实施例中,在不脱离本公开的范围的情况下,可以对动作、行为、框、步骤等中的一些进行省略、添加、修改、跳过等。
图5是示出根据本公开的实施例的生成屏幕表征的实施例的流程图。
参照图5,在操作501,考虑电子装置(100)正在联系人应用中显示联系人列表,并且联系人“Nextway”的展开视图包括联系人“Nextway”下的选项图标,包括语音呼叫、消息、视频呼叫和其它联系人详细信息。屏幕图形生成器(111)确定如501A中所示的视图层级和应用信息(AppInfo)。在操作502-503,屏幕图形生成器(111)通过对屏幕(150)上显示的多个内容中的每个内容进行编码来生成内容嵌入。通过使内容通过更快的基于区域的卷积神经网络(R-CNN)及其后的全连接(FC)层来对多个内容中的每个内容进行编码。在操作504,屏幕图形生成器(111)识别屏幕(150)上的视图,并且通过分组来生成上下文内容组。
在操作505,屏幕图形生成器(111)使用来自变换器的句子双向编码器表征(SBERT)从上下文内容组生成语句/文本嵌入。在操作506,屏幕图形生成器(111)从句子/文本嵌入中提取文本分量特征。在操作507,屏幕图形生成器(111)确定每个视图的图形标识符。在操作508,屏幕图形生成器(111)基于图标的图形标识符来预处理选项的图标。如508A中所示,RGB颜色的图标被转换为灰度格式,随后是用于预处理图标的规范化和白化步骤。在操作509,屏幕图形生成器(111)通过使预处理的图标通过卷积神经网络(CNN)层来对图标进行分类,如操作509A中所示。在操作510,屏幕图形生成器(111)基于分类的图标使用文本分量特征来对位置嵌入进行级联。从视图层级中的边界(x1,y1,x2,y2)获得位置嵌入。在操作511,屏幕图形生成器(111)通过使用来自变换器的移动双向编码器表征(MobileBERT)处理具有级联的位置嵌入的内容嵌入来生成屏幕表征。
在操作512,屏幕图形生成器(111)基于屏幕表征来确定屏幕(150)的布局类型。屏幕图形生成器(111)执行屏幕表征的最大池化,然后用FC层进行处理以确定屏幕(150)的布局类型。在操作513,屏幕图形生成器(111)基于屏幕表征来确定每个视图的重要性。屏幕图形生成器(111)利用FC层和激活函数来处理屏幕表征,以确定每个视图的重要性分数。此外,屏幕图形生成器(111)基于视图层级信息和应用信息来确定初始视图重要性。此外,屏幕图形生成器(111)基于初始视图重要性和重要性分数来确定每个视图的重要性(即,最终视图重要性)。
图6是示出根据本公开的实施例的生成上下文内容组的实施例的流程图。
参照图6,在操作601,屏幕图形生成器(111)确定视图层级(601A)(参照图7B中的708)。在操作602,屏幕图形生成器(111)解析来自视图层级(601A)的视图。在操作603,屏幕图形生成器(111)通过从解析的视图确定根节点和根节点下的子节点来生成屏幕图形(603A)。在操作604,屏幕图形生成器(111)通过将所有未读相关消息分组在一起来确定上下文内容组,并且针对由用户选择的视图更新屏幕图形,如604A所示。
图7A是示出用于由根据本公开的实施例的电子装置生成上下文内容组的方法的流程图。
参照图7A,在操作701,屏幕图形生成器(111)检测由用户选择的视图中的当前视图和视图的最终视图。在操作702,屏幕图形生成器(111)确定当前视图的子视图。在操作703,屏幕图形生成器(111)解析当前视图以获取当前视图中的多个内容。在操作704-705,屏幕图形生成器(111)通过确定先前/后续视图的子视图并解析先前/后续视图的子视图来调整上下文的范围(例如,时间)。在操作706,屏幕图形生成器(111)从视图层级确定视图的重要性。在操作707,屏幕图形生成器(111)基于重要性将视图的内容分组到重要类别中。
图7B和7C示出了根据本公开的实施例的视图层级、视图和上下文内容组。
参照图7B和7C,708表示聊天消息的视图层级,709表示聊天消息的视图,并且710表示聊天消息中的上下文内容组。
图8是示出用于由根据本公开的实施例的电子装置从多个内容确定多个见解的方法的流程图。
参照图8,在操作801-802,内容见解确定器(112)识别屏幕(150)上显示的多个内容中的文本和表情符号。此外,内容见解确定器(112)从文本生成包括字符和词的文本嵌入。此外,内容见解确定器(112)从表情符号生成表情符号嵌入。在操作803,内容见解确定器(112)使用文本嵌入和表情符号嵌入来创建多模态嵌入。在操作804-805,内容见解确定器(112)通过使用MICSA和密集层(804A)处理多模态嵌入来确定多个见解。
图9是示出用于由根据本公开的实施例的电子装置使用MICSA来确定多个内容的声音表征的方法的流程图。
参照图9,MICSA将包括文本和表情符号的输入序列(即,内容)分类为声音标签。MICSA包括生成多模态嵌入,然后是具有共享权重(907C)的双CNN(907A,907B)。MICSA通过最小化三元组损失函数来学习共享权重(907C)和相似性分数。共享权重(907C)和相似性分数确保具有相似含义和情感的两个输入序列导致更高的相似性分数,并且因此被分类到相同的声音类别桶中。
由于在MICSA中使用共享权重(907C)而不是单个网络导致性能的改善。MICSA还利用资源相对丰富的语言来提高资源贫乏语言的准确性。考虑X1和X2是多模态输入对,W是需要优化的共享参数,并且A是具有已知标签的锚输入。如果X1和X2属于同一类别,则损失函数将是小的,否则损失函数将是大的。下面给出确定损失函数的等式。
损失函数
其中,α是裕度。
可以使用下面给出的等式来确定使用余弦相似性作为两个序列表征v1和v2之间的能量函数。
为了将未见过的测试序列分类到声音标签中,将其馈送到子网络之一中,并且通过将其与对应于“M”个声音类别的“M”个见过的样本进行比较来计算最高相似性分数。
在操作901,内容见解确定器(112)从接收来自屏幕表征的输入序列(即,内容)。在操作902,内容见解确定器(112)使用文本来生成(或创建)文本嵌入。在操作903,内容见解确定器(112)确定表情符号的文本定义。在操作904,内容见解确定器(112)基于表情符号的文本定义来生成(或创建)词嵌入。在操作905,内容见解确定器(112)使用词嵌入来确定表情符号嵌入。在操作906,内容见解确定器(112)通过组合表情符号嵌入和文本嵌入来生成多模态嵌入。在操作907-908,内容见解确定器(112)通过使多模态嵌入通过具有共享权重(907C)的双CNN(907A、907B)来确定能量函数的相似性分数。在操作909,内容见解确定器(112)基于能量函数的相似性分数将多模态嵌入分类为属于声音表征的声音标签之一。
图10是示出用于由根据本公开的实施例的电子装置确定意图、重要性和情感的方法的流程图。
参照图10,在操作1001,内容见解确定器(112)接收来自屏幕表征的输入序列(即,内容)。在操作1002,内容见解确定器(112)从输入序列生成(或创建)字符嵌入、词嵌入和表情符号嵌入。在操作1003-1004,内容见解确定器(112)将字符嵌入、词嵌入和表情符号嵌入进行级联。在操作1005,内容见解确定器(112)使用堆叠的GRU来确定意图注意力、重要性注意力和情感注意力。在操作1006,内容见解确定器(112)确定每个注意力的对应损失函数。在操作1007,内容见解确定器(112)使用每个注意力的损失函数来确定总损失。在操作1008-1009,内容见解确定器(112)确定总损失是否在Adam优化器处收敛。此外,内容见解确定器(112)在确定总损失在Adam优化器处收敛时确定意图、重要性和情感。
图11是示出用于由根据本公开的实施例的电子装置确定多个内容的信息序列的方法的流程图。
参照图11,在操作1101,内容见解确定器(112)接收来自屏幕表征的输入序列(即,表情符号)。在操作1102,内容见解确定器(112)确定表情符号的文本定义(即,表情符号特征图)。在操作1103,内容见解确定器(112)使用文本定义来生成(或创建)嵌入层。在操作1104,内容见解确定器(112)使用嵌入层生成(或创建)字符嵌入。在操作1105,内容见解确定器(112)通过使字符嵌入通过LSTM节点来确定字符表征。例如,12字符嵌入可以通过30个LSTM节点。在操作1106,内容见解确定器(112)使用嵌入层生成(或创建)词嵌入。在操作1107,内容见解确定器(112)将字符表征和词嵌入级联以生成词表征。通过使字符表征和词嵌入的级联的值通过50个双向长短期记忆(Bi-LSTM)节点及其后的丢弃层和100个Bi-LSTM节点来生成词表征。在操作1108-1110,内容见解确定器(112)通过使用全连接层及其后的SoftMax层来处理词表征以确定信息序列。
两层Bi-LSTM用于从输入序列中进行深度特征学习。字符表征帮助内容见解确定器(112)更好地处理拼写变化和输出它们以校正表情符号的词汇表外(OOV)词,其中使用相同的架构来从多个表情符号组合生成复杂短语。
图12是示出用于由根据本公开的实施例的电子装置生成生成式内容的方法的流程图。
参照图12,在操作1201,生成式内容创建器(113)从内容见解(1201A)确定多个内容的蓝图(例如,短语、声音)以用于风格转移。在操作1202,生成式内容创建器(113)从蓝图中提取特征表征。在操作1203,生成式内容创建器(113)聚合多模态嵌入(即,原始内容包括文本、表情符号、图像等)(1201B)和内容见解(1201A)和特征表征以生成聚合的表征。在操作1204-1205,生成式内容创建器(113)通过使用密集神经网络(DNN)处理聚合的表征来控制具有风格模仿的生成式内容的创建,其中生成式内容包括上下文短语生成、声音混搭、简短摘要和表达性TTS。
图13是示出根据本公开的实施例的生成生成式内容的实施例的流程图。
参照图13,在操作1301,生成式内容创建器(113)接收包括文本和表情符号的多个内容。在操作1302,生成式内容创建器(113)从多个内容生成文本嵌入。在操作1303,生成式内容创建器(113)使用连接的Bi-LSTM块的集合从文本嵌入确定文本上下文。在操作1304,生成式内容创建器(113)从内容见解确定器(112)接收多个内容的内容见解。在操作1305,生成式内容创建器(113)识别多个内容中的表情符号。在操作1306,生成式内容创建器(113)确定与每个表情符号相关联的声音注释。在操作1307,生成式内容创建器(113)从内容见解确定声音效果类型,诸如顺序、混搭、夸张等。
在操作1308,生成式内容创建器(113)通过对声音效果和声音注释进行级联来确定表情符号的声音表达。在操作1309,生成式内容创建器(113)从内容见解确定多个内容的蓝图。在操作1310,生成式内容创建器(113)从蓝图中提取特征表征。在操作1311,生成式内容创建器(113)聚合文本上下文、级联的表征和特征表征以生成聚合的表征。此外,生成式内容创建器(113)使用连接的Bi-LSTM块的集合来处理特征表征。在操作1312,生成式内容创建器(113)将处理后的特征表征与聚合的表征级联。在操作1312,生成式内容创建器(113)使用DNN(即,密集层)处理级联的值,生成一个或更多个生成式内容(1312A-1312C),并且基于意图对生成式内容进行优先级排序。
图14是示出根据本公开的实施例的从多个内容确定上下文短语的实施例的流程图。
参照图14,在操作1401,生成式内容创建器(113)接收包括文本和多模态内容(例如,图形贴纸)的聊天消息。在操作1402-1403,生成式内容创建器(113)从聊天消息中提取文本并使用文本生成文本嵌入。在操作1404-1405,生成式内容创建器(113)识别聊天消息中的多模态内容,从聊天消息中提取多模态内容,并分析多模态内容并生成多模态内容的描述。在操作1406,生成式内容创建器(113)使用多模态内容的描述来生成多模态嵌入。在操作1407-1409,生成式内容创建器(113)对多模态嵌入和文本嵌入的级联的输出顺序地执行Bi-LSTM编码、编码器级注意力和SoftMax,以确定上下文短语。
图15是示出根据本公开的实施例的从多个内容确定上下文短语的实施例的流程图。
参照图15,在操作1501,生成式内容创建器(113)接收包括文本和表情符号的输入序列(即,多个内容)。在操作1502-1503,生成式内容创建器(113)提取在输入序列中提到的实体,并基于该实体创建上下文嵌入。在操作1504-1505,生成式内容创建器(113)从输入序列中提取消息内容,并基于消息内容创建词嵌入。在操作1506-1507,生成式内容创建器(113)从输入序列中提取表情符号组合,并基于表情符号组合创建表情符号嵌入。在操作1508,生成式内容创建器(113)对表情符号嵌入的隐藏状态进行编码。在操作1509-1511,生成式内容创建器(113)使用连接的Bi-LSTM块的集合来处理上下文嵌入、词嵌入和编码后的隐藏状态,提取特征图,并确定实体复制概率。在操作1512-1513,生成式内容创建器(113)使特征图和实体复制概率通过注意力层,并生成作为上下文短语的最终分布。对于每个解码器时间戳,如下给出计算实体复制概率(Pcp),其中Pcp∈[0,1]。
Pcp=σ(wh Tht+wx Txt+b)
对实体复制概率和注意力分布进行加权和求和以获得最终分布。实体复制概率用于在从实体概率分布复制词或从通过从注意力分布采样的输入序列复制下一个生成的令牌之间进行选择。
图16是示出根据本公开的实施例的从多个内容确定声音表达的实施例的流程图。
参照图16,在操作1601,生成式内容创建器(113)识别多个内容中的表情符号。在操作1602,生成式内容创建器(113)确定与每个表情符号相关联的声音注释。在操作1603-1604,生成式内容创建器(113)接收内容见解并从内容见解确定多个内容中预期的情感。在操作1605,生成式内容创建器(113)将声音注释与情感进行级联,并将级联的值提供给一系列解码器块(1606A-1606D)。解码器块(1606A-1606D)是使用主要自注意力机制和学习的正弦位置信息的自回归生成式模型。生成式内容创建器(113)组合与每个表情符号相关联的情感和声音注释,并且输出被馈送到其编码器块和交叉注意力机制被剥离(这使得其非常适合于音乐表征)的vanilla变换器模型。在操作1606,一系列解码器块(1606A-1606D)对级联的值进行解码。在操作1607-1609,生成式内容创建器(113)使用线性层和SoftMax来处理解码的值,并且生成作为声音表达的经混搭的旋律。
图17是示出根据本公开的实施例的确定多个内容的概要的方法的流程图。
参照图17,在操作1701-1702,生成式内容创建器(113)在显示内容时预处理该内容。预处理的示例是但不限于HTML解析、令牌化、词性标记等。在操作1703,生成式内容创建器(113)从预处理的内容中提取特征。在操作1704,生成式内容创建器(113)使用训练的神经模型(1704A)来以概括的文本的形式生成多个内容的概要。神经模型(1704A)使用解码器的记忆单元(即,记忆单元m0)通过如下初始化解码器的状态来控制长度:m0=t*length。t是可训练向量,并且length是期望的输出句子长度。神经模型(1704A)使用其内部状态自行管理输出长度。记忆单元可以学习函数,例如,每次输出词时从特定记忆单元减去固定量。
图18是示出根据本公开的实施例的生成多个内容的情感文本到语音(TTS)的方法的流程图。
参照图18,在操作1801,生成式内容创建器(113)接收包括文本和表情符号的输入序列,并且图序列包括情感类别集的置信度分数。在操作1802,生成式内容创建器(113)使用全连接(FC)层1、注意力层和FC层2来处理图序列,以获得包括音高、持续时间、能量的韵律。在操作1803,生成式内容创建器(113)修改韵律以获得目标韵律。在操作1804,生成式内容创建器(113)通过移除不被合成的标记来清理输入序列中的文本。在操作1805,生成式内容创建器(113)通过将清理后的文本中的数字、日期缩写等变换为正常拼写形式来对清理后的文本进行规范化。在操作1806-1807,生成式内容创建器(113)对规范化文本执行语音化和音节化。语音化包括对规范化文本的字素到语素转换。
在操作1808-1809,生成式内容创建器(113)对规范化文本执行POS标记以及句法和语义分析。在操作1810-1811,生成式内容创建器(113)对从音节化步骤以及句法和语义分析步骤获得的输出执行词汇重音预测和扩张因果卷积,并且通过预测相关的声学波形单元来生成声学候选。在操作1812,生成式内容创建器(113)用目标韵律更新声学候选。在操作1813,生成式内容创建器(113)通过使用因果卷积层、FC隐藏层1、FC隐藏层2和密集层执行自回归生成来生成个体音频样本,使得每个样本使用下面给出的等式以所有先前样本为条件。
在操作1814处,生成式内容创建器(113)组合个体音频样本并生成具有情感泛音的语音。
图19A、图19B、图19C、图19D和图19E示出了由相关技术的装置和所提出的根据本公开的各种实施例的电子装置朗读内容的比较。
参照图19A,在1901,考虑相关技术的装置和所提出的电子装置(100)在21.50显示john的生日问候消息。在1902,相关技术的装置将视图大声朗读为“John生日快乐Jenny双感叹号二十一五十”,这使用户感到困惑,而在1903,所提出的电子装置(100)通过智能地将视图朗读为“二十一点五十来自John的消息“生日快乐Jenny””或“二十一点五十从John接收的生日愿望。其为“生日快乐Jenny””来向用户清楚地提供生日问候消息。
参照图19B,在1904,考虑相关技术的装置和所提出的电子装置(100)正在显示具有表情符号的生日问候消息。在1905,相关技术的装置将视图朗读为“生日快乐、生日蛋糕、派对脸、派对礼花、气球、包裹礼物、五彩纸屑、十七零四”,这使用户感到困惑,而在1906,所提出的电子装置(100)通过智能地将视图朗读为“生日快乐”并且生成表情符号的包括鼓掌声音、气球爆裂声音、乐器声音的表达声音来向用户清楚地提供具有表情符号的生日问候消息,其中,声音的强度基于相同表情符号的连续存在而变化,并且以来自表情符号的表达声音来表达情感。
参照图19C,在1907,考虑相关技术的装置和所提出的电子装置(100)正在显示具有微笑代码的生日问候。在1908,相关技术的装置将视图朗读为“生日快乐,冒号减后括号”,而在1909,所提出的电子装置(100)通过智能地将视图朗读为“生日快乐微笑”来向用户清楚提供具有微笑代码的生日问候。
参照图19D,在1910,考虑相关技术的装置和所提出的电子装置(100)正在联系人应用中显示四百三十五个联系人中的前八个联系人。在1911,相关技术的装置将视图朗读为“示出四百三十五个项目中的一至八项目”,这未向用户提供清楚的信息,而在1912,所提出的电子装置(100)通过智能地将视图朗读为“示出前八个联系人”来向用户清楚地提供。
参照图19E,在1913,考虑相关技术的装置和所提出的电子装置(100)正在显示包含使用信用卡发起的在线购物的一次性密码的短消息服务(SMS)。在1914,相关技术的装置将视图朗读为“18764是您在线购物的一次性密码,尾号为51003的美国运通卡,如果没有请求请拨打卡背面的号码,印度标准时间2020年7月13日22:35”,这破坏了一次性密码的机密性,而在1912,所提出的电子装置(100)智能地将视图朗读为“检测到敏感金融消息,请许可朗读”,这保持了一次性密码的机密性。此外,在从用户接收到许可时,所提出的电子装置(100)朗读一次性密码。
在1915,相关技术的装置朗读屏幕(150)上可用的文本,这对于不同能力的人理解屏幕上正在朗读什么是复杂的。所提出的电子装置(100)理解重要和不重要的内容,理解内容的敏感性,通过理解实体生成短语,并为内容带来表达能力。
图20A和图20B示出了由相关技术的装置和所提出的根据本公开的各种实施例的电子装置朗读通知窗口中的内容的比较。考虑相关技术的装置和所提出的电子装置(100)正在显示通知窗口,该通知窗口包括在线餐具和服装购物应用(名为SHOPPER)的两个通知(2001、2002)以及在线药品购物应用(名为3mg)的通知(2003)。
参照图20A,在2004,相关技术的装置在由用户选择了用于朗读的每个视图的情况下不连续地朗读每个通知(2001-2003),如“扩展号喜欢你买的东西吗问号SHOPPER冒号4告诉我们关于HUSEN纯男士黑裤三个句号你最近买的句号我们很想知道你的体验句号”“扩展号担心的脸不要等太久感叹号SHOPPER15冒号7抓紧逗号现在购买感叹号”“扩展号繁忙的一周在盯着你问号具有单片眼镜的严肃的脸3毫克13冒号14不打扰你的日程句号在家里继续安全工作同时我们把你的药品带给你句号现在逗号获得高达25%的药品折扣逗号当天送达和更多句号立即订购具有露出的手背指向右的手”。此外,相关技术的装置朗读通知中的不重要的文本分量(2001-2003)。
与相关技术的装置不同,所提出的电子装置(100)分析相同的类别关系(即,通知(2001、2002))并合并视图内容,识别通知中的不重要部分(例如,繁忙的一周在盯着你,在家里继续安全工作同时我们把你的药品带给你),从表情符号中理解情感(例如,担心、思考),检测图像(例如,咆哮),生成通知中的长文本的简短摘要,并使用基于表情符号的表达声音(例如,担心声音)。
参照图20B,所提出的电子装置(100)识别出两个通知(2001、2002)属于在线餐具和服装购物应用,并且通知(2003)属于在线药品购物应用。在2005,所提出的电子装置(100)将两个通知(2001、2002)连续地朗读为“十八点零四来自SHOPPER的通知:告诉我们关于您最近购买的HUSEN纯男士黑裤。我们很想知道您的体验,十五点零七:不要等太久,现在抓紧购买大锅”。在2006,所提出的电子装置(100)将通知(2003)朗读为“十三点十四:来自3mg的通知:-获得高达25%的药品折扣、当天送达和更多。现在订购”。
参照图20A,在2001-2002,考虑相关技术的装置和所提出的电子装置(100)正在显示包含使用信用卡发起的在线购买的一次性密码的SMS。在1914,相关技术的装置将视图朗读为“18764是您在线购买的一次性密码,尾号为51003的美国运通卡,如果没有请求请拨打卡背面的号码,印度标准时间2020年7月13日22:35”,这破坏了一次性密码的机密性,而在1912,所提出的电子设备(100)智能地将视图朗读为“检测到敏感金融消息,请许可朗读”,这保持了一次性密码的机密性。此外,在从用户接收到许可时,所提出的电子设备(100)朗读一次性密码。
图21示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读联系人应用中的联系人的内容的比较。
参照图21,在2101,考虑相关技术的装置和所提出的电子装置(100)正在联系人应用中显示联系人。在2102,相关技术的装置不朗读整体联系人信息组件。在选择了联系人的移动电话号码子视图的情况下,相关技术的装置朗读“一万两千三百四十五、六万七千八百九十”。在选择了联系人的语音呼叫子视图的情况下,相关技术的装置朗读“语音呼叫一二三四五六七八九零双击以激活”。
与相关技术的装置不同,在2103,所提出的电子装置(100)的屏幕图形生成器(111)概括整个联系人信息视图,识别视图中存在的移动电话号码信息,并识别可用于联系人的选项,包括语音呼叫、消息和视频呼叫。在2104,所提出的电子装置(100)的内容见解确定器(112)识别联系人姓名(例如,Ankita)和联系人号码(例如,12345 67890)。在2105,所提出的电子装置(100)的生成式内容创建器(113)朗读整体联系人信息,包括联系人姓名和联系人号码、可用于联系人的语音呼叫、消息传递和视频呼叫的选项。在用户选择了联系人号码子视图的情况下,生成式内容创建器(113)朗读为“联系人号码是1234567890”。在用户选择了语音呼叫子视图的情况下,生成式内容创建器(113)朗读为“语音呼叫Ankita”。
图22示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读联系人应用中的联系人列表的内容的比较。
参照图22,在2201,考虑相关技术的装置和所提出的电子装置(100)正在联系人应用中显示联系人列表。在2202,相关技术的装置将联系人应用中的联系人列表的整体视图朗读为“显示来自250个项目中的项目53至60”。在用户从列表中选择了一个联系人的情况下,相关技术的装置朗读“扩展显示来自250个项目中的项目53到60”。
与相关技术的装置不同,在2203,所提出的电子装置(100)的屏幕图形生成器(111)识别出联系人“Nextway”被用户扩展,并且识别Nextway联系人的整体视图的重要组件,包括语音呼叫、消息、视频呼叫、视图联系人信息的可用选项和所示的其它联系人视图。在2204,所提出的电子装置(100)的内容见解确定器(112)识别联系人“Nextway”的包括联系人电话9972066119、联系人姓名Nextway、国家代码+91、国家印度的联系人详细信息以及从联系人“NavyaIt”到联系人“New Elfa Décor”所示的其他4个联系人的详细信息。在2205,所提出的电子装置(100)的生成式内容创建器(113)朗读示出从联系人“NavyaIt”到联系人“New Elfa Décor”的4个联系人的总体视图。在用户选择了联系人“Nextway”的情况下,生成式内容创建器(113)将联系人“Nextway”的选项朗读为“Nextway的联系人号码是来自印度的997206619”。此外,生成式内容创建器(113)朗读用于语音呼叫、消息、视频呼叫以及可用的视图详细联系人信息的选项。
图23示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读图库应用的内容的比较。
参照图23,在2301,考虑相关技术的装置和所提出的电子装置(100)正在显示图库应用的内容。在2302,相关技术的装置将整体视图朗读为“示出24个项目中的项目1-6”。
与相关技术的装置不同,在2303,所提出的电子装置(100)的屏幕图形生成器(111)从视图获得图库中的文件夹的信息。在2304,所提出的电子装置(100)的内容见解确定器(112)将文件夹名称确定为文件夹Nhance、图片等。在2305,所提出的电子装置(100)的生成式内容创建器(113)朗读“显示文件夹Kaphatsend、Nhance、图片、Pins、屏幕记录、SonyLiv”。
图24示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读社交媒体应用的内容的比较。
参照图24,在2401,考虑相关技术的装置和所提出的电子装置(100)正在社交媒体应用中显示包括图像和发布图像的人(即,Yami Gautam)的姓名的社交媒体帖子。在2402,相关技术的装置将社交媒体应用的总体视图朗读为“显示217个项目中的项目46-50”。
与相关技术的装置不同,在2403,所提出的电子装置(100)的屏幕图形生成器(111)从视图获得帖子信息。在2404,所提出的电子装置(100)的内容见解确定器(112)识别在社交媒体应用中发布图像的人的姓名。在2405,所提出的电子装置(100)的生成式内容创建器(113)将社交媒体应用的整体视图朗读为“显示Yami Gautam的帖子”。
图25示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读日历应用的内容的比较。
参照图25,在2501,考虑相关技术的装置和所提出的电子装置(100)正在显示日历应用。在2502,相关技术的装置将日历应用的整体视图朗读为“8月30日星期一双击两个事件以查看详细信息”。
与相关技术的装置不同,在2503,所提出的电子装置(100)的屏幕图形生成器(111)识别并理解日历应用的视图中的内容,包括日期、月份、事件数量、事件细节以及包括用于更多事件细节的弹出视图的可用选项。在2504,所提出的电子装置(100)的内容见解确定器(112)从日历应用的视图中将事件日期识别为30日,将事件月识别为8月,将事件数量识别为2,将第一事件标题识别为Janmashtami,并且将第二事件标题识别为飞往新德里的航班。在2505,所提出的电子装置(100)的生成内容创建器(113)将日历应用的整体视图朗读为“8月30日,星期一,两个事件可用,标题为Janmashtami和飞往新德里,双击以获取更多事件详细信息”。
图26示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读搜索结果的内容的比较。
参照图26,在2601,考虑相关技术的装置和所提出的电子装置(100)正在设置应用中显示搜索结果。在2602,相关技术的装置将搜索结果的整体视图朗读为“示出5个项目中的项目1至5”。
与相关技术的装置不同,在2603,所提出的电子装置(100)的屏幕图形生成器(111)识别搜索结果的内容列表以及包括双击以激活的可用选项,内容列表包括列表项目的数量、项目描述、项目类别。在2604,所提出的电子装置(100)的内容见解确定器(112)将搜索列表视图行的数量识别为5,将项目类别识别为搜索、设置、可访问性,将项目描述识别为对讲、在盖乐世商店中打开对讲、对讲盲文键盘、对讲和可访问性。在2605,所提出的电子装置(100)的生成式内容创建器(113)将搜索结果的整体视图朗读为“按以下顺序显示搜索结果,来自搜索类别的对讲和在盖乐世商店中打开对讲,来自设置的对讲盲文键盘,以及来自可访问性类别的对讲和可访问性”。
图27示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读对聊天消息的回复的内容的比较。
参照图27,在2701,考虑相关技术的装置和所提出的电子装置(100)正在显示对聊天消息的回复。在2702,相关技术的装置将对聊天消息的回复的整体视图朗读为“是,但是尝试不同的...下午三点三十八”(实际消息跟着时间)。此外,相关技术的装置朗读而没有任何音频效果,可用的聊天选项包括长按选项。
与相关技术的装置不同,在2703,所提出的电子装置(100)的屏幕图形生成器(111)识别回复中的消息文本,并且可用选项包括长按选项。在2704,所提出的电子装置(100)的内容见解确定器(112)将回复的发送者姓名和消息识别为对聊天消息的回复。在2705,所提出的电子装置(100)的生成式内容创建器(113)将对聊天消息的回复的整体视图朗读为“回复(#停顿)不期望突破结果(#停顿)由你发送(#停顿)是,但是尝试不同的...(#停顿)下午三点三十八”。(#停顿)是指在朗读文本的同时在文本中给出(#停顿)的部分处给出停顿。
图28示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读噪声消除设置的内容的比较。
参照图28,在2801,考虑相关技术的装置和所提出的电子装置(100)正在显示噪声消除设置。在2802,相关技术的装置将噪声消除设置的总体视图朗读为“噪声控制。在列表中:五个项目”。
与相关技术的装置不同,在2803,所提出的电子装置(100)的屏幕图形生成器(111)识别包括“主动噪声消除”、“环境声音”等的切换选项,并且识别“主动噪声消除”是当前启用的选项。在2804,所提出的电子装置(100)的内容见解确定器(112)识别出当前多选项切换状态包括启用状态的名称,并且启用状态的名称被识别为“主动噪声消除”。在2805,所提出的电子装置(100)的生成式内容创建器(113)将噪声消除设置的总体视图朗读为“噪声控制。启用的选项是主动噪声消除。可用的选项是关闭和环境声音”。
图29示出了由相关技术的装置和所提出的根据本公开的实施例的电子装置朗读另一社交媒体应用中的帖子的内容的比较。
参照图29,在2901,考虑相关技术的装置和所提出的电子装置(100)正在显示另一社交媒体应用中的帖子的内容,其中帖子中的大部分文本是以相关技术的装置未识别的语言编写的。在2902,相关技术的装置完全跳过未识别的语言的文本来朗读,并且仅将最后的话题标签其它识别为数字。在由用户选择了帖子的情况下,相关技术的装置朗读“没有雪的雪人在雪人处2个儿童1小时前D五百一十八拥抱脸aespa数字taemin数字taemin号码shinee数字shinee话题标签超级明星图像文章双击激活”。
与相关技术的装置不同,在2903,所提出的电子装置(100)的屏幕图形生成器(111)识别话题标签并概括总体帖子信息视图。在2904,所提出的电子装置(100)的内容见解确定器(112)将未识别的语言识别为日语,识别用户名和帖子ID snowtaemin,并且话题标签包括英语、韩语和日语形式的taemin、SHINee(英语、韩语)、超级明星,并且图像类型包括日历和音乐。在2905,所提出的电子装置(100)的生成式内容创建器(113)将搜索结果的整体视图朗读为“显示1小时前推送的用户ID snowtaemin的帖子,其中用户名部分为日语,具有表情符号和词2kids。该帖子部分为日语,其间具有拥抱面部表情符号和词aespa。所提及的话题标签是Taemin、shinee和superstar。该帖子附带日历和音乐的图像”。
图30示出了由根据本公开的实施例的电子装置朗读的不同内容。
参照图30,如在3001中所示,聊天消息在文本结尾处包括剑的表情符号。电子装置(100)识别表情符号并在朗读文本的结尾处生成用剑切割对象的音频。
如在3002中所示,聊天消息包括文本结尾处的表情符号。电子装置(100)识别表征表情符号的情感,并且在朗读文本时基于表征表情符号的情感调制音频生成。
如在3002中所示,消息包括单个发笑表情符号。如在3003中所示,消息包括多个发笑表情符号。如在3004中所示,电子装置(100)在单个发笑表情符号的情况下生成笑的音频,而电子装置(100)在多个发笑表情符号的情况下生成夸张笑的音频。
如在3005中所示,消息包括表示不同类型的笑的多个表情符号。电子装置(100)增强不同类型的笑的音频中的情感和强度。
考虑电子装置(100)正在显示如3006中所示的具有表情符号序列的消息,然后电子装置(100)识别表情符号序列和根据表情符号序列表征的情感,并且基于根据表情符号序列表征的情感将生成式文本生成为“这是用传达烦恼的一组表情符号表达的这如此令人沮丧”。
考虑电子装置(100)正在显示如3007中所示的具有表征讽刺情感的表情符号的消息,然后电子装置(100)从表情符号中识别讽刺情感,并将生成式文本生成为“用传达讽刺的一组表情符号表达这真的好吗”。
考虑电子装置(100)正在显示如3008中所示的具有表示派对、欢乐等的多个表情符号的消息,然后电子装置(100)从表情符号识别派对、欢乐等,并将生成式文本生成为“用传达许多爱和欢乐的一组表情符号表达的生日快乐”。此外,电子装置(100)生成基于生成式文本的混音。
考虑电子装置(100)正在显示如3009中所示的女性发送者和男性接收者之间的聊天,然后电子装置(100)识别发送者和接收者的性别。此外,在针对接收的消息进行选择以朗读时,电子装置(100)调制像女性朗读接收的消息一样的音频。类似地,在针对发送的消息进行选择以朗读时,电子装置(100)调制像男性朗读发送的消息一样的音频。
考虑电子装置(100)正在显示如3010中所示的具有多种语言的组合的消息,然后在针对消息进行选择以朗读时,电子装置(100)识别消息中的多种语言,并且基于用于多种语言的口音来调制音频。
考虑电子装置(100)显示如3011中所示的传达消息的一组序列表情符号,然后电子装置(100)从序列表情符号识别消息并生成模拟消息的音频。在示例3011中,电子装置(100)将第二消息朗读为“没时间胡说”,而电子装置(100)将第三消息朗读为“我要睡觉了”。
根据本公开的实施例,机器可读存储介质或计算机可读介质可以以非暂时性存储介质的形式提供。这里,“非暂时性存储介质”仅表示有形装置,不包括信号(例如,电磁波),并且该术语不区分数据半永久地存储在存储介质中的情况和数据临时存储在存储介质中的情况。例如,“非暂时性存储介质”可以包括暂时存储数据的缓冲器。
根据本公开的实施例,根据本文公开的各种实施例的方法可以通过包括在计算机程序产品中来提供。计算机程序产品可以作为产品在卖方和买方之间进行交易。计算机程序产品可以以机器可读存储介质(例如,CD-ROM)的形式分发,或者通过应用商店分发(例如,下载或上传),或者直接或在线在两个用户装置(例如,智能电话)之间分发。在在线分发的情况下,计算机程序产品(例如,可下载应用)的至少一部分可以至少临时存储在机器可读存储介质(诸如,制造商的服务器、应用商店的服务器或中继服务器的存储器)中或临时生成。
本文公开的实施例可以使用至少一个硬件装置并执行网络管理功能以控制元件来实现。
具体实施例的前述描述将如此充分地揭示本文中的实施例的一般性质,使得其他人可以通过应用当前知识容易地针对各种应用修改和/或改编这些具体实施例而不脱离一般构思,并且因此,这些改编和修改应当并且旨在被理解在所公开的实施例的等同物的含义和范围内。将理解的是,本文采用的措辞或术语是出于描述而非限制的目的。
虽然已经参照本公开的各种实施例示出和描述了本公开,但是本领域技术人员将理解,在不脱离由所附权利要求及其等同物限定的本公开的精神和范围的情况下,可以在其中进行形式和细节上的各种改变。

Claims (15)

1.一种用于由电子装置100智能朗读显示内容的方法,所述方法包括:
基于在所述电子装置100的屏幕(401)上显示的多个内容来获得屏幕表征;
基于所述屏幕表征从所述多个内容中提取多个见解,所述多个见解包括所述多个内容的意图、重要性、情感、声音表征和信息序列中的至少一个(402);以及
生成模拟所提取的多个见解的音频(403)。
2.根据权利要求1所述的方法,其中,获得所述屏幕表征的步骤包括:
基于在所述屏幕上显示的所述多个内容来获得多个屏幕嵌入;
基于在所述屏幕上显示的所述多个内容来获得多个上下文内容组;以及
基于所述多个屏幕嵌入和所述多个上下文内容组来获得所述屏幕表征。
3.根据权利要求2所述的方法,其中,获得所述多个上下文内容组的步骤包括:
接收所述屏幕150上的视图;
识别所述视图中的每个视图的重要性和所述视图之间的关系;以及
通过基于所述视图中的每个视图的重要性和所述视图之间的关系对所述视图进行分组来生成所述上下文内容组。
4.根据权利要求3所述的方法,其中,通过基于所述视图中的每个视图的重要性和所述视图之间的关系对所述视图进行分组来生成所述上下文内容组的步骤包括:
获得所述视图中的当前视图;
识别所述当前视图的先前子视图和后续子视图;
解析所述当前视图、所述先前子视图和所述后续子视图,以获取所述当前视图、所述先前子视图和所述后续子视图中的所述多个内容;
确定所述当前视图、所述先前子视图和所述后续子视图中的至少一个是否具有至少一个上下文相关字段;
从所述至少一个上下文相关字段确定相关上下文;
基于所述相关上下文将所述当前视图、所述先前子视图和所述后续子视图分类为重要类别或不重要类别;以及
将所述视图的内容分组到所述重要类别中。
5.根据权利要求1至4中任一项所述的方法,提取所述多个见解的步骤包括:
基于所述屏幕表征获得包括文本和至少一个表情符号的多模态特征;
基于所述多模态特征生成多模态嵌入;以及
使用深度神经网络DNN将多模态嵌入分类为属于所述声音表征的声音标签。
6.根据权利要求5所述的方法,其中,生成所述多模态嵌入的步骤包括:
基于所述多模态特征中的所述文本来生成词嵌入和字符嵌入;
基于所述词嵌入和所述字符嵌入来生成文本嵌入;
确定所述至少一个表情符号的文本定义;
基于所述至少一个表情符号的所述文本定义来生成表情符号嵌入;以及
基于所述表情符号嵌入和所述文本嵌入来生成所述多模态嵌入。
7.根据权利要求5和6中任一项所述的方法,其中,使用所述DNN将所述多模态嵌入分类为属于所述声音表征的所述声音标签之一的步骤包括:
通过将所述多模态嵌入通过具有共享权重的双卷积神经网络来确定能量函数的相似性分数,其中,所述双卷积神经网络通过最小化三元组损失函数来学习所述共享权重和所述相似性分数;以及
基于所述能量函数的所述相似性分数将所述多模态嵌入分类为属于所述声音表征的所述声音标签之一。
8.根据权利要求1至7中任一项所述的方法,其中,提取所述多个见解的步骤包括:
基于所述屏幕表征生成字符嵌入、词嵌入和表情符号嵌入;
将所述字符嵌入、所述词嵌入和所述表情符号嵌入进行级联;
使用堆叠门控循环单元GRU基于所述级联的结果来确定意图注意力、重要性注意力和情感注意力以及每个注意力的对应损失函数;以及
基于所述意图注意力、所述重要性注意力和所述情感注意力以及每个注意力的对应损失函数来确定所述意图、所述重要性和所述情感。
9.根据权利要求1至8中任一项所述的方法,其中,提取所述多个见解的步骤包括:
基于所述屏幕表征来确定包括视频、图像和表情符号的多模态特征的文本定义;
基于所述多模态特征的所述文本定义来生成词嵌入和字符嵌入;
基于所述字符嵌入来确定字符表征;
基于所述字符表征和所述词嵌入来确定词表征;以及
基于所述词表征来确定所述信息序列。
10.根据权利要求1至9中任一项所述的方法,其中,生成模拟所提取的多个见解的音频的步骤包括:
确定所述多个内容的蓝图;
通过基于所提取的多个见解和所述蓝图从所述多个内容受控地生成具有风格模仿的内容来确定所述生成式内容;以及
生成模拟所述生成式内容的所述音频。
11.根据权利要求10所述的方法,其中,通过基于所提取的多个见解和所述蓝图从所述多个内容中受控地生成具有风格模仿的内容来确定所述生成式内容的步骤包括:
基于所述多个内容的意图、上下文、情感、敏感性和句子理解来从所述多个内容确定上下文短语;
基于声音标签确定所述多个内容中的至少一个表情符号的声音表达;
确定所述多个内容的概要;
基于所述电子装置的用户的性别、多语言特征和人口统计特征来确定个性化声音;以及
基于所提取的多个见解、所述蓝图、所述个性化声音、所述多个内容的所述概要、所述声音表达和所述上下文短语来生成生成式内容。
12.一种用于智能朗读显示内容的电子装置100,所述电子装置100包括:
屏幕150;
存储器120,存储一个或更多个指令;以及
至少一个处理器130,被配置为执行存储在所述存储器中的所述一个或更多个指令以:
基于在所述电子装置100的屏幕上显示的多个内容来获得屏幕表征;
基于所述屏幕表征从所述多个内容中提取多个见解,所述多个见解包括所述多个内容的意图、重要性、情感、声音表征和信息序列中的至少一个;以及
生成模拟所提取的多个见解的音频。
13.根据权利要求12所述的电子装置100,其中,用于获得所述屏幕表征的所述一个或更多个指令被进一步配置为:
基于在所述屏幕上显示的所述多个内容来获得多个屏幕嵌入;
基于在所述屏幕上显示的所述多个内容来获得多个上下文内容组;以及
基于所述多个屏幕嵌入和所述多个上下文内容组来获得所述屏幕表征。
14.根据权利要求13所述的电子装置100,其中,用于获得所述多个上下文内容组的所述一个或更多个指令被进一步配置为:
接收所述屏幕150上的视图;
识别所述视图中的每个视图的重要性和所述视图之间的关系;以及
通过基于所述视图中的每个视图的重要性和所述视图之间的关系对所述视图进行分组来生成上下文内容组。
15.一种包括指令的计算机可读介质,所述指令在被执行时使至少一个处理器:
基于在电子装置100的屏幕上显示的多个内容来获得屏幕表征;
基于所述屏幕表征从所述多个内容中提取多个见解,所述多个见解包括所述多个内容的意图、重要性、情感、声音表征和信息序列中的至少一个;以及
生成模拟所提取的多个见解的音频。
CN202380015068.4A 2022-01-11 2023-01-11 用于智能朗读显示内容的方法和电子装置 Pending CN118541750A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN202241001343 2022-01-11
IN202241001343 2022-01-11
PCT/KR2023/000511 WO2023136605A1 (en) 2022-01-11 2023-01-11 Method and electronic device for intelligently reading displayed contents

Publications (1)

Publication Number Publication Date
CN118541750A true CN118541750A (zh) 2024-08-23

Family

ID=87069875

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380015068.4A Pending CN118541750A (zh) 2022-01-11 2023-01-11 用于智能朗读显示内容的方法和电子装置

Country Status (3)

Country Link
US (1) US20230223008A1 (zh)
EP (1) EP4388526A4 (zh)
CN (1) CN118541750A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12210834B2 (en) * 2022-09-16 2025-01-28 International Business Machines Corporation Text summarization with emotion conditioning

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9767789B2 (en) * 2012-08-29 2017-09-19 Nuance Communications, Inc. Using emoticons for contextual text-to-speech expressivity

Also Published As

Publication number Publication date
EP4388526A1 (en) 2024-06-26
US20230223008A1 (en) 2023-07-13
EP4388526A4 (en) 2024-11-06

Similar Documents

Publication Publication Date Title
US20210248804A1 (en) Using text for avatar animation
US20200395008A1 (en) Personality-Based Conversational Agents and Pragmatic Model, and Related Interfaces and Commercial Models
CN109952572B (zh) 基于消息贴纸的建议响应
US10586369B1 (en) Using dialog and contextual data of a virtual reality environment to create metadata to drive avatar animation
US10521946B1 (en) Processing speech to drive animations on avatars
CN107077841B (zh) 用于文本到语音的超结构循环神经网络
US20200134398A1 (en) Determining intent from multimodal content embedded in a common geometric space
CN110491365A (zh) 为纯文本文档生成音频
US20140164506A1 (en) Multimedia message having portions of networked media content
US20030167167A1 (en) Intelligent personal assistants
CN107516533A (zh) 一种会话信息处理方法、装置、电子设备
JP2017527926A (ja) 社交的会話入力に対するコンピュータレスポンスの生成
US20240338860A1 (en) Text and image generation for creation of imagery from audible input
US11538476B2 (en) Terminal device, server and controlling method thereof
US12353897B2 (en) Dynamically morphing virtual assistant avatars for assistant systems
US11176332B2 (en) Linking contextual information to text in time dependent media
Breen et al. Intonational phrasing is constrained by meaning, not balance
CN111902812A (zh) 电子装置及其控制方法
US20240419919A1 (en) Smart text rewriting for interactive domains
WO2022242706A1 (zh) 基于多模态的反应式响应生成
CN117194625A (zh) 数字人的智能对话方法、装置、电子设备及存储介质
CN118541750A (zh) 用于智能朗读显示内容的方法和电子装置
CN115881133A (zh) 用于交互的方法、装置、设备和存储介质
CN116127003A (zh) 文本处理方法、装置、电子设备及存储介质
CN114882868A (zh) 语音合成、情绪迁移、交互方法、存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination